#adversarial-attacks 主题 - Cyber Security Daily Radar

👥 作者: Yuhang Jiang, Xiaojing Chen

本文揭示了在基于迁移的对抗攻击中，输入多样性（Input Diversity, DI）这一常用技巧对攻击迁移性的影响存在非单调的“剪刀效应”。DI通过在每次攻击迭代中对输入图像进行随机缩放和填充来增强攻击的鲁棒性，通常被认为能普遍提高迁移成功率。然而，作者发现这一假设依赖于目标模型的类型：对于标准训练的代理模型，增加DI概率确实提升迁移成功率；但对于经过鲁棒训练的代理模型，DI反而显著降低迁移成功率，两者的响应曲线像剪刀一样分离。在ImageNet数据集上，盲目使用DI导致针对CNN、ViT、Swin和ConvNeXt等目标模型，以及2018至2024年间十种攻击的平均攻击成功率下降10.3%。在CIFAR-10上该效应较弱，除非DI强度较大。通过控制鲁棒性强度的实验表明，这种损害是渐进的而非二元的，在弱鲁棒性区域就已出现转折。作者将原因追溯到梯度几何：通过缩放/平移分解，约67%的损害归因于缩放操作；直接测量源-目标梯度对齐发现，相同缩放操作对标准代理改善对齐，对鲁棒代理则恶化对齐。作者提出局部梯度一致性（Local Gradient Consistency, LGC）指标来区分两种代理类型，并证明了一个偏差-方差交叉定理，隔离了DI有益的区间与缩放偏差占主导的区间。最后，提出无需重新训练的策略CG-DI，即当LGC高时禁用DI，从而保留标准代理上DI的益处并避免鲁棒代理上的损失。这项工作将剪刀效应定位为更广泛的鲁棒性-迁移性权衡在DI上的具体表现。

💡 推荐理由: 对抗攻击的迁移性是评估防御鲁棒性的关键指标。本文发现广泛使用的输入多样性技巧在鲁棒模型上反而有害，这一反直觉结果将影响攻击评估和防御设计的实践，值得安全研究人员重新审视攻击算法的默认设置。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: De Zhang Lee, Han Fang, Ee-Chien Chang

本文针对黑盒对抗攻击的流式检测（Stateful Detection, SD）方法展开研究。现有方法如Blacklight和PIHA利用查询之间的相似性来识别对抗性查询序列。作者观察到，分类软标签的时间相关性是对抗攻击的一个显著特征，可用于降低误报率。此外，论文指出SD实现中的一个潜在漏洞：许多系统为了效率采用近似相似函数替代精确但计算昂贵的度量，攻击者可以构造在近似下不相似但在精确度量下相似的查询，从而逃避检测（称为针对近似函数的“对抗攻击”）。基于这些观察，作者提出一个两阶段检测框架：第一阶段识别高相似度的查询子序列，并引入随机性以防止针对近似函数的对抗攻击；第二阶段分析软标签的时间相关性，进一步验证是否存在攻击者查询。实验结果表明，该方法对Boundary Attack、HSJA、SimBA、Square Attack等攻击的检测真阳性率（TPR）达到1.00，同时假阳性率（FPR）不超过0.06，并且对自适应攻击OARS具有鲁棒性。

💡 推荐理由: 该研究改进了对抗攻击的流式检测方法，利用软标签时间相关性降低误报，并揭示了近似相似函数可能被利用的漏洞，对提升检测系统鲁棒性有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: R. Spencer Hallyburton, Miroslav Pajic

本文首次揭示了一种针对 LiDAR 传感器的远程触发恶意软件攻击面。作者发现，可以预先将恶意软件嵌入 LiDAR 固件中，在正常运行时保持休眠状态，部署后无需物理接触或网络访问即可通过外部光信号远程激活。研究团队在封闭研究环境（有厂商技术支持）中开发了能够实时操纵点云的恶意软件，并设计了一种光学触发器，通过向感知环境发射调制信号来触发激活。触发后，恶意软件可以执行虚假对象注入（例如凭空生成行人轮廓）和真实对象抑制（例如擦除真实障碍物）。实验在静态（300英尺距离）和动态（35英里/小时）场景中验证了攻击可行性，并通过 SOTA 3D 目标检测器确认注入的类人伪影在语义上可被检测。最后在战术自主车辆上演示了多种安全关键影响（如碰撞规避失败）。论文强调，当前 LiDAR 开发与部署流程缺乏完整的完整性保障，尤其是在固件层面。适合自动驾驶安全研究人员、传感器固件开发者和系统安全架构师阅读。

💡 推荐理由: 该攻击无需传统网络或物理访问，仅通过光学远程触发即可操纵 LiDAR 感知结果，直接威胁自动驾驶系统的安全决策，揭示了感知管线供应链中固件完整性的盲区。

🎯 建议动作: 跟进论文，评估自身 LiDAR 供应链的固件签名与完整性校验机制，调研光学异常信号检测方案。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Bohdan Turbal, Blossom Metevier, Max Springer, Aleksandra Korolova

本文提出了一种名为Greedy Coordinate Diffusion (GCD)的新型对抗攻击框架，用于攻击经过安全对齐的大型语言模型（LLM）。现有攻击方法存在两类问题：基于优化的攻击（如GCG）生成高困惑度、不连贯的后缀，容易被基于困惑度或防护模型的过滤器检测；而保持语义连贯的攻击往往改变查询的语义意图，导致模型响应偏离攻击者的原始目标。GCD利用离散扩散语言模型的生成先验来引导对抗后缀的搜索，在保持低困惑度和高语义一致性的同时实现高效攻击。该方法无需直接梯度访问，可在灰盒设置下运行。实验表明，GCD在攻击成功率（ASR）上达到最高，同时在响应质量得分上具有竞争力，且构造的对抗提示被基于困惑度和防护模型的过滤器检测到的比率低于其他方法。该工作揭示了安全对齐LLM面临的语义连贯对抗攻击风险，为防御研究提供了新的评估基准。

💡 推荐理由: 该工作展示了现有对抗攻击的检测机制可能被更隐蔽的攻击绕过，强调了需要开发对低困惑度、语义连贯攻击更鲁棒的防御手段。

🎯 建议动作: 研究跟进，评估内部LLM部署对此类攻击的脆弱性，并探索针对性防御。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peng Cheng 0007, Yuwei Wang 0009, Peng Huang, Zhongjie Ba, Xiaodong Lin 0001, Feng Lin 0004, Li Lu 0008, Kui Ren 0001

该论文聚焦于语音可控智能设备面临的对抗样本（AE）威胁。已有黑盒对抗攻击仅需目标ASR系统最终转录结果，但通常需要大量查询，成本高昂，且对抗样本易受ASR模型更新影响。作者指出根本原因在于无法直接在深度学习模型决策边界附近构造对抗样本。基于此，提出ALIF，首个基于语言学特征的黑盒对抗攻击管道。ALIF利用文本-语音（TTS）和ASR模型的互逆过程，在决策边界所在的语言学嵌入空间中生成扰动。基于ALIF管道，进一步提出ALIF-OTL和ALIF-OTA两种方案，分别针对数字域和物理播放环境，在四个商业ASR和语音助手上进行攻击。大量评估表明，ALIF-OTL和ALIF-OTA的查询效率分别比现有方法提升97.7%和73.3%，且攻击性能相当。尤为突出的是，ALIF-OTL仅需一次查询即可生成攻击样本。时间鲁棒性实验验证了该方法对ASR模型更新的抵抗能力。该研究揭示了低成本、高效的黑盒音频对抗攻击途径，对语音平台安全性构成新挑战。

💡 推荐理由: 本文展示了极低成本的黑盒音频对抗攻击，仅需一次查询即可生成有效样本，且对ASR更新鲁棒，提醒防御者此类攻击可能对语音助手和ASR服务造成严重威胁，需关注语言学层面的防御。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bulat Nutfullin, Vladimir Evgrafov, Dmitry Namiot

该论文对多模态大语言模型（MLLMs）的推理时防御方法进行了比较实证评估。背景：MLLMs在安全关键场景中应用增多，但视觉通道使其易受对抗攻击，而主要面向文本的安全对齐只能部分应对。重新训练模型以适应每种新漏洞类成本过高。因此，研究聚焦于推理时防御。方法：在InternVL和Qwen-VL系列共8个模型上，针对4种攻击类别、7个安全基准、总计9000个评估样本，评估了三种推理时防御方法（安全提示、SmoothVLM、以及它们的组合）的效果。使用统一的代理分类器进行评估。主要发现：1）没有单一防御在所有设置中占优，效果取决于模型基线安全水平和攻击类型。2）直接组合防御会导致良性查询的过度拒绝率高达97-100%，而单独SmoothVLM也达99.2-100%。3）简单的安全提示能保持大部分效用（过度拒绝率0.0-18.2%，其中5个模型低于7%，两个超过15%），同时带来中等安全性提升。4）不同攻击类在不同的基准下暴露出不同弱点，凸显了多基准评估的重要性。5）在两项模型的初步白盒测试（n=20）中，文本级防御抑制了原本无防御时成功的PGD视觉攻击：防御作用于输出阶段，梯度优化在该配置下影响有限。结论：结果支持自适应防御选择而非单一固定防御配置。适合安全研究人员、LLM开发者和部署者阅读。

💡 推荐理由: 多模态大模型安全防护是当前热点，该研究系统比较了多种推理时防御方法的实际效果与权衡，为实际部署提供了选择指导。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qi-An Fu, Yinpeng Dong, Hang Su 0006, Jun Zhu 0001, Chao Zhang 0008

本文提出 AutoDA（Automated Decision-based Iterative Adversarial Attacks），一种自动化决策型迭代对抗攻击方法。传统决策型攻击需要人工设计查询策略和超参数，效率低且泛化性差。AutoDA 通过自动搜索最优的迭代攻击方案，包括步长、扰动方向更新策略等，从而在有限的查询次数内高效生成对抗样本。该方法在黑盒场景下（仅能获得模型最终决策）实现高攻击成功率，同时在ImageNet等大规模数据集上验证了其有效性。实验表明，AutoDA 在攻击成功率和查询效率上均优于现有决策型攻击方法，并揭示了当前深度神经网络在决策级鲁棒性上的脆弱性。

💡 推荐理由: 该研究自动化了决策型对抗攻击的调参过程，降低了攻击门槛，可能被攻击者利用来更高效地评估模型鲁棒性或发起黑盒攻击。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Lingfeng Yao, Xincong Zhong, Chenpei Huang, Xuandong Zhao, Hanqing Guo, Aohan Li, Jiang Liu, Tomoaki Ohtsuki, Miao Pan

随着AI生成音频的普及，水印技术被广泛用于检测滥用和保护知识产权。然而，攻击者可能试图移除这些水印，因此评估水印方案对移除攻击的鲁棒性至关重要。现有攻击方法往往不切实际：要么明显降低感知质量，要么需要访问水印方案的具体细节。本文提出DiffErase，一种黑盒水印移除攻击方法，它假设攻击者不了解目标水印方案，同时保持感知质量。DiffErase将带水印的音频扰动到中间扩散噪声水平，然后使用预训练的降噪模型重新生成，从而有效抑制水印信号。理论分析和大量实验表明，不可听的音频水印非常脆弱：在多个音频域中，DiffErase在保持感知质量的同时持续移除水印。这些发现突显了未来音频水印设计需要考虑基于扩散模型的威胁。代码和演示可在 https://differase.github.io/DiffErase/ 获取。

💡 推荐理由: 揭示了当前音频水印在扩散模型攻击下的脆弱性，对安全从业者评估和保护音频内容水印系统具有警示意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zisis Tsiatsikas, Alexandros Fakis, Georgios Karopoulos, Vasileios Kouliaridis, Marios Anagnostopoulos

本文是首篇针对设备端AI推理（on-device AI inference）安全威胁与防御机制的系统综述。随着越来越多的预训练AI模型被部署在移动设备和边缘设备上进行客户端推理，模型窃取/提取、对抗性攻击和数据泄露等风险日益突出。现有防御机制包括可信执行环境（TEE）、同态加密、混淆和差分隐私等，但当前综述多聚焦于边缘智能（含分布式训练），忽略了设备端推理特有的安全与隐私问题。本文系统梳理了针对设备端推理的攻击和防御文献，发现攻击与防御研究极不平衡：约四分之一的攻击论文关注知识产权（IP）攻击，而一半的防御方案针对同一问题；更关键的是，某些攻击类别（如占攻击文献约三分之一的对抗性攻击）尚无对应的防御研究。这一不对称性凸显了未来研究的方向。本文适合安全研究人员、AI系统开发者和边缘计算从业者阅读。

💡 推荐理由: 首次系统梳理了设备端AI推理特有的攻击与防御，揭示了当前防御严重落后于攻击的不对称局面，为后续研究提供了清晰的路线图。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Miel Verkerken, Laurens D'hooge, Bruno Volckaert, Filip De Turck, Giovanni Apruzzese

本文针对基于机器学习的网络入侵检测系统（ML-NIDS）的对抗鲁棒性研究提出关键反思。现有大量工作通过向预收集的数据点（如路由器捕获的数据包或ML-NIDS分析的网络流）施加微小扰动来评估ML-NIDS的安全性，但作者指出，真实攻击者只能控制网络中少数无特权的主机，其扰动施加范围受限于主机层面（即“host-space”）。通过系统文献综述（n=316），作者发现先前研究大多忽略了这一约束，其扰动操作可能超出攻击者实际能力。为填补这一空白，本文正式定义了“主机空间对抗扰动”，即攻击者仅通过修改自身可控主机上的行为（如改变SSH暴力破解命令字符串中的一个字符）来产生对抗样本。实验基于公开基准和真实网络，结果表明：能够检测特定命令字符串SSH暴力尝试的ML-NIDS，当攻击者将该字符串仅修改一个字符后，完全无法检测任何后续尝试。作者进一步分析了这种问题空间（主机）微小变化如何导致特征空间的灾难性影响，并总结了评估主机空间扰动的实践教训。本文呼吁重新评估ML-NIDS的安全性，强调应从攻击者可操作的真实主机视角进行鲁棒性测试。

💡 推荐理由: 指出当前ML-NIDS对抗鲁棒性评估中的核心方法论缺陷：多数工作假设攻击者可操控网络流量数据，而真实攻击者仅能控制主机行为。重新定义评估边界有助于更贴近实战，避免模型安全性误判。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Linyi Li 0001, Maurice Weber, Xiaojun Xu, Luka Rimanic, Bhavya Kailkhura, Tao Xie 0001, Ce Zhang 0001, Bo Li 0026

本文提出TSS（Transformation-Specific Smoothing）框架，旨在为机器学习模型提供针对语义变换（如旋转、模糊、平移等）的鲁棒性认证。现有认证方法主要针对L_p范数约束的扰动，而对语义变换的认证研究不足。TSS根据语义变换的特性将其分为两类：可解析变换（如高斯模糊）和差分可解析变换（如旋转），针对前者提出变换特定随机平滑策略，针对后者采用分层采样方法以处理插值误差。TSS结合一致性增强训练，实现了严格的鲁棒性认证。实验在十多种挑战性语义变换上进行，结果表明TSS显著优于现有方法，并且首次在大规模ImageNet数据集上取得非平凡的认证鲁棒性（例如，在±30°旋转攻击下实现30.4%的认证准确率）。此外，TSS对自适应攻击和未知图像损坏（如CIFAR-10-C、ImageNet-C）也具有鲁棒性。

💡 推荐理由: 该研究填补了语义变换鲁棒性认证的空白，为安全攸关的ML系统（如自动驾驶、医疗影像）提供了可证明的防御保障。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Wei Song, Cong Cong 0001, Haonan Zhong, Jingling Xue

本文提出了一种基于修正的防御方法，旨在抵御针对视频分类模型的对抗性攻击。该方法利用离散化增强视频压缩感知（DVCS）技术，将视频压缩采样与离散化处理相结合，以消除对抗性扰动。核心思想是：对抗性扰动通常表现为高频噪声，而视频压缩感知的欠采样过程可以有效滤除这些噪声；进一步通过离散化（如量化）破坏扰动的结构。作者设计了一个端到端的防御框架，包括压缩采样、离散化、重构和分类步骤。实验在多个视频数据集（如UCF-101、HMDB-51）上评估，针对多种攻击（如FGSM、PGD、C&W）展示了较好的鲁棒性提升，同时保持了较高的分类准确率。与现有的对抗训练、输入变换等方法相比，该方法在计算开销和防御效果之间取得了平衡。此外，作者还探讨了离散化参数对性能的影响，并给出了理论分析。该工作为视频领域的对抗防御提供了新思路，适合对视频安全、对抗学习感兴趣的研究者阅读。

💡 推荐理由: 视频对抗攻击防御是安全领域的重要课题，该方法无需对抗训练即可提升鲁棒性，且计算开销较低，有实际部署潜力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Buyun Liang, Jinqi Luo, Liangzu Peng, Kwan Ho Ryan Chan, Darshan Thaker, Kaleab A. Kinfu, Fengrui Tian, Hamed Hassani, René Vidal

本文针对大型语言模型（LLM）中的幻觉现象，提出了一种新颖的对抗性攻击框架REALISTA。幻觉是指模型生成看似合理但实际错误的内容，严重影响LLM的可靠性和安全性。现有攻击方法存在局限性：基于离散提示的攻击（如人工改写）搜索空间有限，而连续潜在空间攻击虽然探索空间更大，但解码后的提示往往失去语义等价性，无法保证与用户正常提示的等效性。REALISTA将幻觉诱导形式化为一个约束优化问题，旨在找到与良性用户提示语义等价且连贯的对抗性提示。其核心创新在于构建了一个输入相关的有效编辑方向词典，每个方向对应一个语义等价且连贯的改写，然后在潜在空间中优化这些方向的连续组合。这种方法结合了连续攻击的优化灵活性和离散改写攻击的语义真实性。实验表明，REALISTA在多个开源LLM上达到或超越了现有最先进现实攻击的效果，并且成功攻击了大型推理模型（如Chain-of-Thought模型）的自由响应设置，而此前的方法在此场景下均失效。该工作揭示了LLM在面对精心设计的对抗性提示时仍存在严重的幻觉漏洞，为评估和提升LLM的安全性提供了重要工具。

💡 推荐理由: 该研究揭示了LLM在面对语义等价的对抗性提示时仍可能产生幻觉，有助于安全从业者理解模型脆弱性，并开发更鲁棒的防御机制。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sri Hrushikesh Varma Bhupathiraju, Shaoyuan Xie, Michael Clifford, Qi Alfred Chen, Takeshi Sugawara 0001, Sara Rampazzi

该论文研究了热成像传感器在自主系统（如自动驾驶汽车、智能建筑、无人机和机器人）中的安全漏洞。热成像传感器能够在低光照和恶劣天气条件下通过探测物体的热量来感知环境，但这些传感器也容易受到物理世界对抗性攻击。论文提出并评估了一种名为Multi-Band Adversarial Thermal (MBAT)的新型攻击方法，该方法利用热辐射效应（如电热毯、加热丝、热气射流）在现实世界中操纵热图像，使目标物体被误识别为其他类型或消失。实验表明，MBAT攻击在多个商业热成像传感器上具有高成功率，并能造成碰撞、误判等安全后果。此外，论文还讨论了针对此类攻击的潜在缓解措施，包括热图像滤波和传感器融合策略。该研究揭示了热成像感知系统的重大安全隐患，并强调需要更强大的防御机制来保护自主系统的安全。

💡 推荐理由: 热成像传感器在自主系统中广泛应用，而本论文首次系统性地展示了现实世界中针对热成像感知的对抗攻击，提醒安全从业者关注这一新兴攻击面。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial-attacks

The Scissors Effect: When Resize-Based Input Diversity Helps or Hurts Transfer Attacks

Enhancing Stateful Detection of Adversarial Attacks with Soft-labels' Temporality and Robust Similarity Approximations

Anywhere, Any-Stymie: Remote Activation of Trojan Malware on LiDAR with Modulated Signals

Greedy Coordinate Diffusion: Effective and Semantically Coherent Adversarial Attacks via Diffusion Guidance

ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features.

Comparative Analysis of Inference-Time Defense Methods for Multimodal Large Language Models

AutoDA: Automated Decision-based Iterative Adversarial Attacks.

Audio Pirates: Black-box Audio Watermark Removal via Diffusion Priors

Protecting On-Device AI Inference: A Systematic Review of Attacks and Defence Mechanisms

"What is the Problem Space?" Defining Host-space Adversarial Perturbations against Network Intrusion Detection Systems

TSS: Transformation-Specific Smoothing for Robustness Certification.

Correction-based Defense Against Adversarial Video Attacks via Discretization-Enhanced Video Compressive Sensing.

REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations

The Heat is On: Understanding and Mitigating Vulnerabilities of Thermal Image Perception in Autonomous Systems.