#certified-defense 主题 - Cyber Security Daily Radar

👥 作者: Chong Xiang 0001, Saeed Mahloujifar, Prateek Mittal

该论文提出了一种名为 PatchCleanser 的认证鲁棒防御方法，旨在抵御针对图像分类模型的对抗性补丁攻击。对抗性补丁攻击通过在输入图像的受限区域内注入精心设计的像素（即补丁），导致模型误分类。这种攻击可在物理世界中通过打印并粘贴补丁到目标物体上实现，对计算机视觉系统构成实际威胁。PatchCleanser 的核心思想是在输入图像上执行两轮像素掩码操作，以消除对抗性补丁的影响。该方法完全基于图像空间的操作，因此与任何现有最先进的图像分类器兼容，且能保持高精度。更重要的是，作者证明了在其威胁模型下，PatchCleanser 能够确保对于某些图像，针对任意自适应白盒攻击者，始终预测正确的类别标签，从而实现认证鲁棒性。论文在 ImageNet、ImageNette、CIFAR-10、CIFAR-100、SVHN 和 Flowers-102 等多个数据集上进行了广泛评估。实验结果表明，PatchCleanser 在保持与最先进分类模型相近的清洁准确率的同时，显著提升了认证鲁棒准确率。例如，在 1000 类 ImageNet 数据集上，面对图像上任意位置的 2% 像素大小的方形补丁，该方法达到了 83.9% 的 top-1 清洁准确率和 62.1% 的 top-1 认证鲁棒准确率。该工作适合计算机视觉安全研究人员、模型部署工程师以及对抗性机器学习领域的研究者阅读。

💡 推荐理由: 该研究提供了一种通用的、可证明鲁棒的防御方案，适用于任意图像分类器，对提升真实世界计算机视觉系统的安全性具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhenpeng Li

该论文针对基于大语言模型（LLM）的网络入侵检测系统（IDS）在对抗性流量操控下的鲁棒性问题，提出了一种名为“流量感知随机平滑”（Traffic-Aware Randomized Smoothing, TA-RS）的分类器无关认证防御方法。传统随机平滑（RS）通常假设所有特征均可被攻击者控制，但在网络流量场景中，部分特征（如源/目的IP、端口等）可能被远程攻击者修改，而另一些特征（如时间戳、包间隔等）则不受控制。TA-RS的核心思想是在微调与认证阶段，仅向攻击者可直接控制的特征子空间（DC subspace）注入高斯噪声，从而使平滑分布与攻击者可控子空间对齐，避免不必要的噪声破坏不可控特征，进而提高认证准确率。实验使用CIC-IDS-2018、HIKARI-2021和RT-IoT2022三个流量数据集，以及LLaMA3-8B和Qwen3-8B两种LLM模型。结果显示，标准随机平滑在干净训练模型上的认证准确率很低（14%-33%），而噪声增强微调后恢复至68%-100%（sigma=0.25）。在L_inf等价阈值R_inf下，TA-RS在CIC-IDS-2018和HIKARI-2021上取得55%-100%的认证准确率，且中位认证半径R远超R_inf（1.8-5倍）。与各向同性随机平滑基线相比，TA-RS的优势可达72个百分点，但这一差异主要源于训练与认证的不匹配（各向同性噪声会扰动不可控特征，导致高达68%的弃权率）。在RT-IoT2022数据集上，默认微调方案失效，但增加噪声增强后恢复到76%/69%的认证准确率。该工作首次为LLM-IDS提供可证明的鲁棒性保障，揭示了特征子空间对齐在认证防御中的关键作用。

💡 推荐理由: 随着LLM被用于入侵检测，攻击者可能通过操控流量特征逃避检测。TA-RS提供了首个可证明的防御框架，明确了噪声注入应与攻击者可控特征对齐，对实际部署LLM-IDS的安全团队具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Leyi Qi, Yiming Li, Siyuan Liang, Zhengzhong Tu, Dacheng Tao

随着文本到图像（T2I）扩散模型在创意应用中的广泛使用，模型被未经授权使用的问题日益严重，模型所有权验证（MOV）成为保护知识产权的重要手段。现有基于后门的扩散模型水印方法通常隐含假设验证过程是“忠实”的，即验证者可以查询可疑模型并获得可信的水印响应。然而，在实际对抗环境中，攻击者可能有意或无意地破坏水印信号，导致验证可靠性显著下降。针对这一问题，本文提出了 Cert-LAS，这是首个基于层自适应平滑的认证 T2I 模型所有权验证方法。具体而言，Cert-LAS 利用扩散分类器和拉普拉斯频率敏感（LFS）引导的层自适应噪声将指定水印嵌入模型，并通过假设检验验证可疑模型是否表现出比未加水印参考模型显著更强的水印响应。理论上，作者证明了在特定条件下，即使存在恶意移除攻击，Cert-LAS 仍能实现可靠验证。大量实验验证了 Cert-LAS 的有效性及其对自适应攻击的抵抗性。该工作为 T2I 扩散模型的版权保护提供了具有认证保障的解决方案。

💡 推荐理由: 本文首次为 T2I 扩散模型提供了具有认证保障的所有权验证方法，能有效抵抗恶意水印移除攻击，对保护模型知识产权具有重要实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#certified-defense

PatchCleanser: Certifiably Robust Defense against Adversarial Patches for Any Image Classifier.

Traffic-Aware Randomized Smoothing for LLM-Based Network Intrusion Detection

Cert-LAS: Toward Certified Model Ownership Verification for Text-to-Image Diffusion Models via Layer-Adaptive Smoothing