#neural-activations 主题 - Cyber Security Daily Radar

👥 作者: Xue Tan, Hao Luan, Mingyu Luo, Zhuyang Yu, Jun Dai 0001, Xiaoyan Sun 0003, Ping Chen 0003

本文研究了针对开源大语言模型（LLMs）的成员推理攻击（Membership Inference Attack, MIA），即判断特定数据样本是否被用于模型训练。与现有基于模型输出（如loss、logits）的MIA方法不同，作者提出利用模型内部的神经激活（neural activations）来区分成员和非成员样本。具体地，他们设计了一种攻击方法，通过提取目标模型在特定层上的激活值，并训练一个二元分类器（如逻辑回归或MLP）来预测成员关系。实验在多个开源LLM（如GPT-2、LLaMA、OPT等）和多种数据集（如新闻、医疗、代码）上进行，结果表明基于激活的方法显著优于输出基方法，在低假阳性率下取得高召回率。此外，作者分析了不同模型层、不同样本长度对攻击性能的影响，并探讨了防御措施（如差分隐私训练、激活剪枝）的有效性。该研究揭示了LLM内部状态泄露训练数据的风险，为模型隐私评估提供了新工具。

💡 推荐理由: 该方法通过模型内部激活实现更精准的成员推理，对使用开源LLM的组织构成数据泄露风险，尤其涉及合规场景（如GDPR）。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#neural-activations

Was My Data Used for Training? Membership Inference in Open-Source LLMs via Neural Activations.