#data-extraction 主题 - Cyber Security Daily Radar

👥 作者: Md Abdullah Al Mamun, Ngoc Phu Doan, Pedram Zaree, Ihsen Alouani, Nael Abu-Ghazaleh

本文研究了一种针对大型语言模型（LLM）的新型训练数据提取攻击。攻击者通过投毒一小部分训练数据，能够诱导模型泄露一条攻击者无法访问的目标记录（例如私有医疗记录或用户对话）。核心洞察是：通过在目标完成点附近重塑模型的局部损失景观，使其成为尖锐的损失最小值，同时抬高周围替代方案的损失，从而迫使模型将该目标记忆为邻域内唯一的低损失解。该攻击无需修改模型架构，且适用于集中式训练和联邦学习场景。实验表明，在纯语言模型上提取成功率达100%，在视觉-语言模型上达90%。此外，虽然差分隐私（DP）训练能够阻止该攻击，但作者提出了一种新型攻击，通过直接探测损失景观来绕过差分隐私保护。该研究揭示了即使在被认为安全的训练设置中，投毒攻击仍可能造成严重隐私泄露，强调了在LLM训练中需要更强大的隐私保护机制。

💡 推荐理由: 该攻击展示了一种新颖的隐私泄露路径：攻击者通过投毒少量训练数据，即可定向提取从未见过的目标数据，且成功率极高。这对使用LLM处理敏感数据的组织构成严重威胁，并揭示了现有差分隐私防御的局限性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Eden Luzon, Guy Amit, Roy Weiss, Torsten Krauß, Alexandra Dmitrienko, Yisroel Mirsky

本论文提出一种针对联邦学习的训练时后门攻击方式，使恶意服务器能够系统性地提取客户端完整训练样本。传统数据提取方法往往只能概率性重建或产生幻觉，无法精确恢复原始数据。该方法通过修改训练过程，在模型中嵌入一个后门触发器，当输入特定索引模式时，模型会直接输出对应训练样本。由于输出尺寸限制，攻击者将样本分割为多个补丁依次提取，并在服务器端重组。攻击仅需对训练代码做微小修改，客户端验证难以察觉，构成联邦学习供应链安全威胁。实验覆盖分类器、分割模型和大语言模型，显示可以数千计地恢复敏感样本，且对主任务性能影响极小（如医学分割数据集仅降低3%准确率）。研究揭示了联邦学习系统中数据隐私的重大漏洞，强调加强分布式训练管道完整性和透明性的必要性。适合联邦学习安全研究员、隐私保护工程师阅读。

💡 推荐理由: 该攻击首次实现联邦学习中精确、高容量的训练数据提取，仅需轻微破坏模型效用，严重威胁隐私敏感的医学等场景。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#data-extraction

Loss Landscape Poisoning: Targeted Extraction of Unseen Training Data from LLMs

Memory Backdoor Attacks on Neural Networks.