#certified-defense

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Chong Xiang 0001, Saeed Mahloujifar, Prateek Mittal

本论文提出了 PatchCleanser,一种针对图像分类模型对抗补丁攻击的可认证鲁棒防御方法。对抗补丁攻击通过在图像的一个受限区域内注入精心设计的像素(即补丁)来诱导模型误分类,这种攻击可以在物理世界中通过打印并粘贴补丁到目标物体上实现,对计算机视觉系统构成实际威胁。PatchCleanser 的核心思想是在输入图像上执行两轮像素掩码操作,以中和对抗补丁的影响。这种基于图像空间的操作使得 PatchCleanser 可以与任何最先进的图像分类器兼容,同时保持高分类精度。更重要的是,论文证明了在威胁模型内,PatchCleanser 能够对任意自适应白盒攻击者保证对某些图像始终预测正确的类别标签,即可认证鲁棒性。实验在 ImageNet、ImageNette、CIFAR-10、CIFAR-100、SVHN 和 Flowers-102 数据集上进行,结果表明 PatchCleanser 在干净图像上的准确率与最先进模型相当,并且在可认证鲁棒性上显著优于先前工作。例如,在 1000 类 ImageNet 数据集上,针对图像上任意位置 2% 像素大小的方形补丁,PatchCleanser 实现了 83.9% 的 top-1 干净准确率和 62.1% 的 top-1 可认证鲁棒准确率。该研究适合安全研究人员、计算机视觉工程师以及关注机器学习系统鲁棒性的从业者阅读。

💡 推荐理由: 提供了一种可认证鲁棒性的防御方案,有效对抗物理世界可实现的对抗补丁攻击,且兼容现有分类器,对提升 AI 系统安全性具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Leyi Qi, Yiming Li, Siyuan Liang, Zhengzhong Tu, Dacheng Tao

随着文本到图像(T2I)扩散模型在创意应用中的广泛使用,模型被未经授权使用的问题日益严重,模型所有权验证(MOV)成为保护知识产权的重要手段。现有基于后门的扩散模型水印方法通常隐含假设验证过程是“忠实”的,即验证者可以查询可疑模型并获得可信的水印响应。然而,在实际对抗环境中,攻击者可能有意或无意地破坏水印信号,导致验证可靠性显著下降。针对这一问题,本文提出了 Cert-LAS,这是首个基于层自适应平滑的认证 T2I 模型所有权验证方法。具体而言,Cert-LAS 利用扩散分类器和拉普拉斯频率敏感(LFS)引导的层自适应噪声将指定水印嵌入模型,并通过假设检验验证可疑模型是否表现出比未加水印参考模型显著更强的水印响应。理论上,作者证明了在特定条件下,即使存在恶意移除攻击,Cert-LAS 仍能实现可靠验证。大量实验验证了 Cert-LAS 的有效性及其对自适应攻击的抵抗性。该工作为 T2I 扩散模型的版权保护提供了具有认证保障的解决方案。

💡 推荐理由: 本文首次为 T2I 扩散模型提供了具有认证保障的所有权验证方法,能有效抵抗恶意水印移除攻击,对保护模型知识产权具有重要实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)