#adversarial-attacks

共收录 4 条相关安全情报。

← 返回所有主题
👥 作者: Linyi Li 0001, Maurice Weber, Xiaojun Xu, Luka Rimanic, Bhavya Kailkhura, Tao Xie 0001, Ce Zhang 0001, Bo Li 0026

本文提出TSS(Transformation-Specific Smoothing)框架,旨在为机器学习模型提供针对语义变换(如旋转、模糊、平移等)的鲁棒性认证。现有认证方法主要针对L_p范数约束的扰动,而对语义变换的认证研究不足。TSS根据语义变换的特性将其分为两类:可解析变换(如高斯模糊)和差分可解析变换(如旋转),针对前者提出变换特定随机平滑策略,针对后者采用分层采样方法以处理插值误差。TSS结合一致性增强训练,实现了严格的鲁棒性认证。实验在十多种挑战性语义变换上进行,结果表明TSS显著优于现有方法,并且首次在大规模ImageNet数据集上取得非平凡的认证鲁棒性(例如,在±30°旋转攻击下实现30.4%的认证准确率)。此外,TSS对自适应攻击和未知图像损坏(如CIFAR-10-C、ImageNet-C)也具有鲁棒性。

💡 推荐理由: 该研究填补了语义变换鲁棒性认证的空白,为安全攸关的ML系统(如自动驾驶、医疗影像)提供了可证明的防御保障。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Wei Song, Cong Cong 0001, Haonan Zhong, Jingling Xue

本文提出了一种基于修正的防御方法,旨在抵御针对视频分类模型的对抗性攻击。该方法利用离散化增强视频压缩感知(DVCS)技术,将视频压缩采样与离散化处理相结合,以消除对抗性扰动。核心思想是:对抗性扰动通常表现为高频噪声,而视频压缩感知的欠采样过程可以有效滤除这些噪声;进一步通过离散化(如量化)破坏扰动的结构。作者设计了一个端到端的防御框架,包括压缩采样、离散化、重构和分类步骤。实验在多个视频数据集(如UCF-101、HMDB-51)上评估,针对多种攻击(如FGSM、PGD、C&W)展示了较好的鲁棒性提升,同时保持了较高的分类准确率。与现有的对抗训练、输入变换等方法相比,该方法在计算开销和防御效果之间取得了平衡。此外,作者还探讨了离散化参数对性能的影响,并给出了理论分析。该工作为视频领域的对抗防御提供了新思路,适合对视频安全、对抗学习感兴趣的研究者阅读。

💡 推荐理由: 视频对抗攻击防御是安全领域的重要课题,该方法无需对抗训练即可提升鲁棒性,且计算开销较低,有实际部署潜力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Buyun Liang, Jinqi Luo, Liangzu Peng, Kwan Ho Ryan Chan, Darshan Thaker, Kaleab A. Kinfu, Fengrui Tian, Hamed Hassani, René Vidal

本文针对大型语言模型(LLM)中的幻觉现象,提出了一种新颖的对抗性攻击框架REALISTA。幻觉是指模型生成看似合理但实际错误的内容,严重影响LLM的可靠性和安全性。现有攻击方法存在局限性:基于离散提示的攻击(如人工改写)搜索空间有限,而连续潜在空间攻击虽然探索空间更大,但解码后的提示往往失去语义等价性,无法保证与用户正常提示的等效性。REALISTA将幻觉诱导形式化为一个约束优化问题,旨在找到与良性用户提示语义等价且连贯的对抗性提示。其核心创新在于构建了一个输入相关的有效编辑方向词典,每个方向对应一个语义等价且连贯的改写,然后在潜在空间中优化这些方向的连续组合。这种方法结合了连续攻击的优化灵活性和离散改写攻击的语义真实性。实验表明,REALISTA在多个开源LLM上达到或超越了现有最先进现实攻击的效果,并且成功攻击了大型推理模型(如Chain-of-Thought模型)的自由响应设置,而此前的方法在此场景下均失效。该工作揭示了LLM在面对精心设计的对抗性提示时仍存在严重的幻觉漏洞,为评估和提升LLM的安全性提供了重要工具。

💡 推荐理由: 该研究揭示了LLM在面对语义等价的对抗性提示时仍可能产生幻觉,有助于安全从业者理解模型脆弱性,并开发更鲁棒的防御机制。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Sri Hrushikesh Varma Bhupathiraju, Shaoyuan Xie, Michael Clifford, Qi Alfred Chen, Takeshi Sugawara 0001, Sara Rampazzi

该论文研究了热成像传感器在自主系统(如自动驾驶汽车、智能建筑、无人机和机器人)中的安全漏洞。热成像传感器能够在低光照和恶劣天气条件下通过探测物体的热量来感知环境,但这些传感器也容易受到物理世界对抗性攻击。论文提出并评估了一种名为Multi-Band Adversarial Thermal (MBAT)的新型攻击方法,该方法利用热辐射效应(如电热毯、加热丝、热气射流)在现实世界中操纵热图像,使目标物体被误识别为其他类型或消失。实验表明,MBAT攻击在多个商业热成像传感器上具有高成功率,并能造成碰撞、误判等安全后果。此外,论文还讨论了针对此类攻击的潜在缓解措施,包括热图像滤波和传感器融合策略。该研究揭示了热成像感知系统的重大安全隐患,并强调需要更强大的防御机制来保护自主系统的安全。

💡 推荐理由: 热成像传感器在自主系统中广泛应用,而本论文首次系统性地展示了现实世界中针对热成像感知的对抗攻击,提醒安全从业者关注这一新兴攻击面。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)