#llm-memorization 主题 - Cyber Security Daily Radar

👥 作者: Nicole Mitchell, Galen Andrew, Arun Ganesh, Brendan McMahan, Peter Kairouz

本文针对大型语言模型（LLM）在参数高效微调过程中可能记忆个体训练样本的问题，提出了一种创新性的经验性隐私审计（EPA）方法。研究背景：微调后的LLM可能泄露隐私，现有审计方法依赖人工设计的“金丝雀”样本，但难以模拟真实数据分布且可能引入隐私风险。核心方法：作者提出利用高温采样（T≥0.8）从LLM本身生成合成金丝雀，这些金丝雀与隐私敏感训练数据分布相似，且具有高影响力（outlier特性），从而在成员推断或重建攻击中实现高识别性，显著提升审计效能。由于合成金丝雀本身不含真实隐私，可重复插入且易于检查，不会危及原始数据隐私。此外，针对微调模型生成合成数据这一重要应用场景，本文引入了一种强大的合成数据审计方法：在合成数据上微调辅助模型，然后审计该辅助模型对原始金丝雀的泄露程度，从而量化合成数据的隐私风险。最后，利用所提审计方法，系统研究了模型容量与金丝雀熵对记忆化的交互影响。实验证明，该方法在多个基准数据集上实现了最先进的隐私审计效果，为LLM隐私风险评估提供了实用工具。

💡 推荐理由: 本方法为LLM隐私审计提供了自动化、无需人工标注金丝雀的解决方案，使安全团队能够更高效地评估微调模型的数据泄露风险，尤其适用于合成数据场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#llm-memorization

Advancing the State-of-the-Art in Empirical Privacy Auditing