#neural-activations

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Xue Tan, Hao Luan, Mingyu Luo, Zhuyang Yu, Jun Dai 0001, Xiaoyan Sun 0003, Ping Chen 0003

本文研究了针对开源大语言模型(LLMs)的成员推理攻击(Membership Inference Attack, MIA),即判断特定数据样本是否被用于模型训练。与现有基于模型输出(如loss、logits)的MIA方法不同,作者提出利用模型内部的神经激活(neural activations)来区分成员和非成员样本。具体地,他们设计了一种攻击方法,通过提取目标模型在特定层上的激活值,并训练一个二元分类器(如逻辑回归或MLP)来预测成员关系。实验在多个开源LLM(如GPT-2、LLaMA、OPT等)和多种数据集(如新闻、医疗、代码)上进行,结果表明基于激活的方法显著优于输出基方法,在低假阳性率下取得高召回率。此外,作者分析了不同模型层、不同样本长度对攻击性能的影响,并探讨了防御措施(如差分隐私训练、激活剪枝)的有效性。该研究揭示了LLM内部状态泄露训练数据的风险,为模型隐私评估提供了新工具。

💡 推荐理由: 该方法通过模型内部激活实现更精准的成员推理,对使用开源LLM的组织构成数据泄露风险,尤其涉及合规场景(如GDPR)。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)