#adversarial attack 主题 - Cyber Security Daily Radar

👥 作者: Qiuchi Xiang, Haoxuan Qu, Hossein Rahmani, Jun Liu

该论文旨在探索一种被忽视的越狱攻击场景——宽网投射（wide-net-casting），即攻击者并非只针对单个大语言模型，而是同时查询一组模型来诱导有害输出。作者指出，现有越狱研究大多聚焦于单模型场景，而实践中攻击者往往能并行访问多个模型（例如通过API调用多个服务）。为验证这一假设，论文首先从形式化定义宽网投射场景，并系统分析了其带来的额外安全风险：由于不同模型可能存在互补的漏洞或对同一提示的不同反应，攻击者可以利用输出间的统计特性或集成策略来提高越狱成功率。进一步，作者设计了一种专为宽网投射场景定制的越狱方法，该方法可能通过构造一组具有关联性的提示，使得在单一模型上难以成功，但跨模型集成后却能产生有害内容。实验在多个主流大模型（如GPT系列、LLaMA等）上进行，结果显示，当模型未添加额外安全防护时，该方法的越狱成功率最高可达100%。即使在有基础安全对齐的模型上，成功率也有显著提升。论文的主要贡献包括：1）首次系统性地提出宽网投射越狱场景；2）设计并验证了针对该场景的高效攻击方法；3）揭示了多模型并行服务架构中存在的隐蔽安全风险，为未来的防御研究（如跨模型一致性过滤、输入多样性检测等）提供了方向和基准。该研究适合大模型安全研究员、AI红队工程师以及提供多模型API服务的厂商阅读，以重新评估其安全部署策略。

💡 推荐理由: 揭示了一种实际且高风险的越狱新场景——宽网投射，攻击者可同时利用多个模型的弱点，突破单个模型的防御，对多模型API服务构成重大威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Maria Bulychev, Neil G. Marchant, Benjamin I. P. Rubinstein

本文提出了一种新颖且通用的数字水印移除攻击方法。核心观察是：攻击水印的过程本质上与水印嵌入过程相似——两者都在寻找对图像不可察觉的修改以触发特定检测器。基于此类比，作者假设可以用水印去攻击水印，即对已加水印的图像再次施加另一个水印（称为重水印），从而抑制原始水印信号。通过在96种不同数据集、受害者水印和攻击水印组合上的严格实验，作者验证了这一假设，表明重水印能可靠地抑制原始信号，且无需梯度、代理模型或检测密钥。此外，作者还设计了一个简单分类器用于检测图像中是否存在水印及其身份，实验显示准确率高达0.878-0.953。该分类器独立具有安全意义：它揭示了水印识别可被利用来实施更强力的移除（比黑盒攻击显著更强）。结合水印识别与重水印，攻击流水线能将比特准确率降低至少25%，最高达48%。这项工作构成了一种廉价、通用且高效的攻击管道，质疑了当前水印方案在面对如此简单攻击时的可靠性，也挑战了现有复杂攻击的价值。该研究适用于对数字水印安全感兴趣的研究者和安全从业者。

💡 推荐理由: 本文揭示了数字水印存在一个根本性漏洞：重水印这种简单操作即可有效移除原始水印，且无需特殊知识。这威胁到版权保护、深度伪造检测等依赖水印可靠性的应用，提醒社区需重新评估水印方案的安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yingkai Dong, Xiangtao Meng, Ning Yu 0006, Zheng Li 0023, Shanqing Guo

本文提出 JailFuzzer，一种基于大语言模型（LLM）代理的自动化模糊测试框架，用于黑盒环境下对文本到图像（T2I）生成模型进行越狱攻击。现有越狱方法存在访问需求不切实际、提示语不自然易被检测、搜索空间受限以及查询开销高等问题。JailFuzzer 结合模糊测试原理与 LLM 代理，包含三个核心组件：种子池（存储初始及越狱提示）、引导变异引擎（利用 LLM 代理生成语义有意义的变异）、以及 oracle 函数（评估越狱是否成功）。通过 LLM 代理构建引导变异引擎和 oracle 函数，使得框架在黑盒环境下保持高效性和适应性。大量实验表明，JailFuzzer 在越狱 T2I 模型方面具有显著优势：生成的提示自然且语义连贯，降低了被传统防御机制检测的概率；同时以极少的查询开销实现高成功率，在所有关键指标上优于现有方法。该研究揭示了 T2I 模型面临的新型越狱威胁，为强化生成模型的安全机制提供了重要参考。JailFuzzer 已开源，代码可在 https://github.com/YingkaiD/JailFuzzer 获取。

💡 推荐理由: 该研究展示了一种高效、自动化的黑盒越狱攻击方法，对 T2I 模型构成真实威胁，安全团队需关注并防范此类利用 LLM 代理的模糊测试攻击。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shaoyuan Xie, Mohamad Habib Fakih, Junchi Lu, Fayzah Alshammari, Ningfei Wang, Takami Sato, Halima Bouzidi, Mohammad Abdullah Al Faruque, Qi Alfred Chen

本文提出了一种针对基于摄像头的自主目标跟踪系统（如无人机、机器人等）的新型物理攻击方法——FlyTrap。该类系统通常依赖视觉目标跟踪算法（如SiamRPN、DiMP等）来锁定并跟随目标。攻击者通过精心设计物理世界中的对抗性图案（例如在衣服上打印特定纹理），使得跟踪算法将攻击者误判为原始目标，从而诱使受害者系统远离原始目标并跟随攻击者移动，实现“距离拉取”效果。论文作者系统性地分析了主流目标跟踪模型在物理对抗样本下的脆弱性，并提出了一个可转移的攻击框架，该框架不依赖攻击者对受害系统内部知识的完全掌握。实验部分在真实无人机平台和仿真环境中验证了攻击的有效性，展示了高成功率（超过80%）和对不同跟踪模型的迁移性。此外，论文还讨论了潜在的防御措施，如基于运动一致性的异常检测和输入预处理。该研究揭示了自主跟踪系统在物理世界中的安全盲区，对无人机、自动驾驶、安防监控等领域具有重要警示意义。

💡 推荐理由: 该攻击直接威胁基于视觉的自主跟踪系统安全，如无人机跟随、机器人导航等，可能导致设备被劫持或引发碰撞事故。首次系统性探索物理距离拉取攻击，为防御研究提供基础。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Pascal Zimmer, Simon Lachnit, Alexander Jan Zielinski, Ghassan Karame

本文提出了一种针对近红外域的新型物理规避攻击方法。现有红外攻击大多只能实现非定向攻击，且受限于位置、形状等因素需要大量优化。作者通过将红外扰动预先打印在透明胶片上，然后使用商用红外手电筒投射到目标物体（如交通标志）表面，首次实现了低成本、隐蔽的定向红外对抗攻击。该攻击无需激光设备，部署成本低于50美元，耗时仅数十秒。在数字和物理域对交通标志的实验中，该方法在不同光照、距离和角度条件下均取得了比以往工作更高的攻击成功率。同时，作者提出了一种基于分割的检测方法，通过分析红外反射模式来识别攻击，F1分数高达99%。本文研究揭示了物理世界AI系统在红外频谱下的新脆弱性，并为防御提供了可行的检测方案。

💡 推荐理由: 该攻击以极低成本实现红外域定向物理规避，可威胁自动驾驶、安防监控等场景的视觉系统，同时其检测方法对蓝队有直接防御价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial attack

New Wide-Net-Casting Jailbreak Attacks Risk Large Models

Watermarks Attack Watermarks: Re-Watermarking as a Generic Removal Strategy

Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-to-Image Generation Models.

FlyTrap: Physical Distance-Pulling Attack Towards Camera-based Autonomous Target Tracking Systems.

Targeted Physical Evasion Attacks in the Near-Infrared Domain.