推荐 5.5
Conf: 50%
本文针对大型语言模型(LLM)在参数高效微调过程中可能记忆个体训练样本的问题,提出了一种创新性的经验性隐私审计(EPA)方法。研究背景:微调后的LLM可能泄露隐私,现有审计方法依赖人工设计的“金丝雀”样本,但难以模拟真实数据分布且可能引入隐私风险。核心方法:作者提出利用高温采样(T≥0.8)从LLM本身生成合成金丝雀,这些金丝雀与隐私敏感训练数据分布相似,且具有高影响力(outlier特性),从而在成员推断或重建攻击中实现高识别性,显著提升审计效能。由于合成金丝雀本身不含真实隐私,可重复插入且易于检查,不会危及原始数据隐私。此外,针对微调模型生成合成数据这一重要应用场景,本文引入了一种强大的合成数据审计方法:在合成数据上微调辅助模型,然后审计该辅助模型对原始金丝雀的泄露程度,从而量化合成数据的隐私风险。最后,利用所提审计方法,系统研究了模型容量与金丝雀熵对记忆化的交互影响。实验证明,该方法在多个基准数据集上实现了最先进的隐私审计效果,为LLM隐私风险评估提供了实用工具。
💡 推荐理由: 本方法为LLM隐私审计提供了自动化、无需人工标注金丝雀的解决方案,使安全团队能够更高效地评估微调模型的数据泄露风险,尤其适用于合成数据场景。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)