推荐 3.5
Conf: 50%
本文提出了一种名为“零训练轮次”(Zero-Run)的隐私审计方法,旨在解决现有隐私审计方法需要干预训练流程(如多次重训练或随机化数据包含)的局限性。在大型部署系统(如基础模型)中,这些干预往往不可行。作者利用两个固定数据集——已知为训练集成员的样本和已知为非成员的样本——进行事后审计。在这种观测性设置下,成员身份不再随机化,成员与非成员数据可能分布不同,导致成员推断分数反映分布偏移而非算法泄露。借鉴因果推断的思想,作者形式化了这种混杂效应,并提出了两种互补的校正方法:第一种将分布偏移和算法泄露的组合效应建模为自适应组合,产生保守的全局校正;第二种基于观测数据调整逐点成员猜测,得到更尖锐的实例依赖边界。在合成数据和大规模模型上的实验表明,当无法进行重训练或受控数据插入时,Zero-Run审计能够实现实用的隐私评估。本文的主要贡献在于提出了无需额外训练运行即可进行隐私审计的框架,并通过因果推断方法校正分布偏移带来的偏差。
💡 推荐理由: 实际中,许多大型模型(如基础模型)的隐私审计因无法干预训练流程而难以进行。Zero-Run方法利用固定数据集进行事后审计,为安全从业者提供了一种实用工具,特别适合评估已部署模型的差分隐私下限。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)