#randomized-smoothing

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Aman Saxena, Jan Schuchardt, Yan Scholten, Stephan Günnemann

本文提出了一种基于差分隐私的原偶视角(primal-dual perspective)来证明机器学习模型对后门攻击的鲁棒性。后门攻击同时污染训练数据和测试数据,使得现有仅针对训练时或推理时单一阶段的随机平滑认证方法失效。作者将随机平滑与差分隐私中的隐私配置文件(privacy profiles)相结合,该配置文件提供了一种数值化方法来组合异构随机机制。由此得到的框架能够对复杂的组合机制进行紧致、模块化的端到端认证,同时可以利用现有差分隐私机制的分析结果。作者将该框架实例化到DP-SGD(差分隐私随机梯度下降)和深度分区聚合(Deep Partition Aggregation)并加入推理时平滑,推导出同时对抗训练时和后门注入、推理时触发器激活的联合鲁棒性保证。在MNIST和CIFAR-10上的实验表明,该方法能够有效认证模型在联合威胁模型下的鲁棒性。本文为使用组合机制认证复杂威胁模型下的鲁棒性提供了一个通用且原则性的框架。

💡 推荐理由: 后门攻击是AI安全的核心威胁,现有认证方法大多只针对单一阶段攻击。本文提出的联合认证框架填补了同时认证训练时和推理时攻击的空白,有助于构建更可信的AI系统。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)