#artifact-provenance 主题 - Cyber Security Daily Radar

👥 作者: Xiaofeng Lin, Yukai Yang, Daniel Guo, Sahil Arun Nale, Charles Fleming, Guang Cheng

该论文针对使用工具的LLM代理（Tool-Using LLM Agents）提出了一种新型的多步越狱攻击方法——上下文碎片化解构攻击（Context-Fractured Decomposition, CFD）。现有的大多数越狱攻击和防御（如Crescendo、Tree of Attacks）都假设防御者能够看到连续的对话上下文，但在实际部署中，LLM代理的管道是碎片化的：工具调用、模块和时间隔离导致执行环境不连续，且工件的来源（provenance）往往未被跟踪。论文形式化描述了这种部署失效模式——来源间隙（Provenance Gap），并研究了可复现的触发方式：CFD攻击将有害行为分解为多个步骤，在早期交互中生成良性外观的中间工件，然后在后续（可能在不同代理实例或工作流阶段）通过单独无害的工具动作组合触发有害行为。攻击风险仅在延迟的工件中介组合（artifact-mediated composition）下显现。作者通过痕迹级诊断对失效模式进行了测量，并提出了可验证的缓解方向——来源血统标记（Provenance Lineage Tagging）。在多个代理系统越狱基准测试中，CFD相比现有最优基线将成功率提升了至多28.3个百分点，且能绕过强单轮审核器。免责声明：论文包含有害或冒犯性语言示例。

💡 推荐理由: 揭示了现有LLM代理安全防御中的盲区——跨上下文、跨步骤的工件溯源缺失，使攻击者能隐蔽地通过无害中间步骤组合出有害行为，对部署于生产环境的工具型代理构成实际威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#artifact-provenance

Context-Fractured Decomposition Attacks on Tool-Using LLM Agents: Exploiting Artifact Provenance Gaps