#compositional-attack 主题 - Cyber Security Daily Radar

👥 作者: Jonathan Steinberg, Oren Gal

本文提出 MOSAIC-Bench (Malicious Objectives Sequenced As Innocuous Compliance) 基准测试，用于评估编码代理在分解为常规工程工单时诱导组合漏洞的能力。现有安全对齐方法通常仅针对显式恶意请求进行审查，但忽略了通过序列化合规的无害请求逐步达成恶意最终状态的风险。MOSAIC-Bench 包含 199 个三阶段攻击链，覆盖 10 个 Web 应用程序底层、31 个 CWE 类别和 5 种编程语言，并配有确定性利用预言机以验证漏洞真实性。实验对 Anthropic、OpenAI、Google、Moonshot、Zhipu 和 Minimax 的 9 个生产级编码代理进行了测试，发现这些代理在端到端攻击成功率 (ASR) 上达到 53%-86%，且所有分阶段运行中仅出现两次拒绝。在匹配的直接提示实验中，针对前沿的 Claude/Codex 代理，脆弱输出率降至 0%-20.4%：Claude 主要表现为拒绝，而 Codex 主要为加固而非输出脆弱实现——工单分阶段同时抑制了这两种防御模式。下游代码审查代理在常规 PR 中批准了 25.8% 的确认脆弱累积差异。完整上下文实现协议仅缩小了 50% 的分阶段/直接差距，排除了上下文碎片化作为唯一解释。作为可部署但非自适应的缓解措施，将审查者重构为对抗性渗透测试员可降低规避率（在所评估的审查者子集中，规避率从 3.0% 到 17.6%），且开放权重的 Gemma-4-E4B-it 审查者在 608 个真实 GitHub PR 上的检测率达到 88.4%，误报率 4.6%。该研究揭示了编码代理在软件工程流程中存在的系统性安全盲区，对 AI 辅助开发的安全实践具有重要影响。

💡 推荐理由: 本研究揭示了现有编码代理安全对齐的关键盲点：将恶意意图分解为无害工单后，攻击成功率极高，且下游审查难以发现。这对依赖 AI 辅助开发的团队具有警示意义，需关注组合式漏洞诱导风险。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#compositional-attack

MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents