#adversarial-examples

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Giulio Lovisotto, Henry Turner, Ivo Sluganovic, Martin Strohmeier, Ivan Martinovic

本文提出一种新型物理对抗性样本生成技术——短时对抗性扰动(SLAP)。传统静态对抗性补丁存在明显、半永久、无法修改等缺点,而SLAP利用投影仪将精心设计的对抗性扰动实时投射到真实物体上,使其转化为对抗性样本。攻击者可以动态开关或修改投影,且不受空间限制,更难被察觉。作者以自动驾驶场景为测试对象,针对车辆检测器和交通标志识别系统(特别是停止标志检测)进行实验。在多种环境光照条件(包括室外)下,SLAP在非明亮环境中表现出极高鲁棒性,对最先进的神经网络(如YOLOv2)在多种角度和距离下实现高达99%的误分类成功率。此外,SLAP生成的对抗性样本不会表现出传统对抗性补丁的可检测特征,从而绕过了SentiNet等物理对抗性检测方法。作者还评估了包括对抗性训练在内的自适应防御措施,即使在有利的攻击条件下,对抗性训练也能将攻击成功率降低80%。该研究揭示了物理对抗性攻击的新途径,对自动驾驶安全具有重要意义。

💡 推荐理由: SLAP引入了一种隐蔽且动态的物理对抗攻击方法,能绕过现有检测机制,对自动驾驶等物理安全关键系统构成新威胁。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

本论文研究视觉语言模型(VLM)作为可信权威时面临的安全威胁。作者提出了一种新型攻击范式——AI权威洗钱(AI authority laundering):攻击者通过对图像施加人眼几乎不可察觉的对抗性扰动,诱导VLM对错误的视觉输入产生自信且权威的回应。与越狱攻击或提示注入不同,该攻击不破坏模型的对齐(alignment),而是完全作用于感知层面,因此传统安全防护措施难以检测。作者利用公开可用的CLIP模型生成对抗性样本,成功迁移至多个商业生产级VLM,包括GPT-5.4、Claude Opus 4.6、Gemini 3和Grok 4.2。实验覆盖四个攻击面:放大错误信息、贬低个人、逃避内容审核以及操纵产品推荐。在身份操纵和NSFW(不适宜工作场所)内容规避的数百次攻击中,六种模型的成功率在22%至100%之间。值得注意的是,攻击并未使用新颖算法,而是采用十余年前已知的基本对抗性技术,这表明攻击者的能力下限已经足以构成实际威胁。作者认为,视觉对抗鲁棒性现在是一个实际且尚未解决的安全问题。该研究适合VLM开发者、安全工程师及AI政策制定者阅读。

💡 推荐理由: 揭示VLM在实际部署中因感知层攻击导致的权威滥用风险,可能被用于传播误导信息、操纵内容审核和产品推荐,而传统基于对齐的防御措施无效。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yijun Yang, Ruiyuan Gao 0001, Yu Li 0007, Qiuxia Lai, Qiang Xu 0001

该论文针对深度学习模型在安全关键领域(如自动驾驶)中面临的对抗样本威胁,提出了一种基于语义矛盾的检测方法。现有防御方案存在诸多缺陷:仅能防御部分对抗样本、对合法输入造成较高的精度损失、且大多数无法抵御自适应攻击(即攻击者知晓防御机制并针对性构造对抗样本)。作者的核心思想是:模型在视觉上看到的图像内容(即像素级别)与网络内部推断的高层语义之间存在不一致性,正常样本的视觉和语义应该是自洽的,而对抗样本则会破坏这种一致性。基于此,论文设计了一种检测框架,通过对比模型对输入的视觉感知与其内部表示之间的语义矛盾来判断输入是否为对抗样本。该方法不依赖特定的攻击类型,理论上可检测多种对抗攻击,包括自适应攻击。实验部分(由于仅有摘要,具体结果未知)预期将展示该方法在保持合法输入高准确率的同时,能有效检测多种对抗样本,且对自适应攻击也有鲁棒性。该研究为对抗样本检测提供了新思路,适合从事深度学习安全、对抗机器学习的研究者和安全工程师阅读。

💡 推荐理由: 该工作提出一种不依赖攻击先验的对抗样本检测新范式,有望弥补现有防御在泛化性和抗自适应攻击方面的短板,对自动驾驶等安全关键系统的实用化部署具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)