#membership inference

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Zeyuan Chen, Yihan Ma, Xinyue Shen, Michael Backes, Yang Zhang

本研究提出了一种针对大型语言模型(LLM)的成员推断攻击方法——PopQuiz攻击。成员推断攻击旨在判断某个特定数据样本是否被用于模型训练,从而泄露训练数据的隐私。该方法将目标数据转化为多项选择题的格式,通过黑盒访问模型(即仅能获取模型输出,无法访问内部参数或梯度)来测试模型是否能正确回忆特定训练样本。攻击者构造问题,要求模型从多个选项中选出正确答案,并根据模型的回答模式推断成员身份。实验在六个广泛使用的LLM(GPT-3.5、GPT-4o、LLaMA2-7b、LLaMA2-13b、Mistral-7b和Vicuna-7b)以及四个数据集上进行,平均ROC-AUC达到0.873,比现有方法高出20.6%。研究还分析了影响攻击成功率的因素,包括查询复杂度、数据类型、数据结构以及训练设置(如模型大小、训练轮数等)。此外,论文评估了三种防御机制:基于指令的防御、基于过滤器的防御和基于差分隐私的防御。这些防御虽能一定程度降低攻击性能,但并未完全消除风险。研究表明,现代LLM中仍存在显著的隐私漏洞。本工作对于理解LLM的隐私风险、设计更安全的模型部署方案具有重要参考价值。

💡 推荐理由: 该攻击无需模型内部信息,仅通过黑盒查询即可推断训练数据中是否包含特定样本,直接威胁LLM的隐私保护能力,对数据合规和安全审计有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Liwei Zhang, Linghui Li, Xiaotian Si, Ziduo Guo, Xingwu Wang, Kaiguo Yuan, Bingyu Li

本文针对联邦学习中的成员推断攻击提出了一种统一的防御框架。成员推断攻击旨在判断某个特定数据样本是否被用于训练模型,严重威胁用户隐私。现有防御方法存在计算开销大或可用性-隐私权衡不佳的问题。作者提出通过知识蒸馏和贡献感知聚合来协同防御:首先,服务器利用全局模型对客户端更新进行蒸馏,生成软标签指导本地训练,减少过拟合从而降低成员推断风险;其次,引入贡献感知聚合机制,根据客户端数据质量动态调整聚合权重,使聚合器对异常更新更鲁棒。实验在多个基准数据集(如CIFAR-10、MNIST)上验证,结果表明该方法在保持模型可用性的同时,显著降低了成员推断攻击的成功率(AUC下降超过10%),且计算开销低于现有对抗训练方法。该框架无需修改客户端训练过程,易于部署。

💡 推荐理由: 联邦学习中的成员推断攻击是重大隐私威胁,本工作提供了一种实用且高效的统一防御方案,对隐私合规要求高的场景(如医疗、金融)有直接应用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)