推荐 5.5
Conf: 50%
该论文针对使用工具的LLM代理(Tool-Using LLM Agents)提出了一种新型的多步越狱攻击方法——上下文碎片化解构攻击(Context-Fractured Decomposition, CFD)。现有的大多数越狱攻击和防御(如Crescendo、Tree of Attacks)都假设防御者能够看到连续的对话上下文,但在实际部署中,LLM代理的管道是碎片化的:工具调用、模块和时间隔离导致执行环境不连续,且工件的来源(provenance)往往未被跟踪。论文形式化描述了这种部署失效模式——来源间隙(Provenance Gap),并研究了可复现的触发方式:CFD攻击将有害行为分解为多个步骤,在早期交互中生成良性外观的中间工件,然后在后续(可能在不同代理实例或工作流阶段)通过单独无害的工具动作组合触发有害行为。攻击风险仅在延迟的工件中介组合(artifact-mediated composition)下显现。作者通过痕迹级诊断对失效模式进行了测量,并提出了可验证的缓解方向——来源血统标记(Provenance Lineage Tagging)。在多个代理系统越狱基准测试中,CFD相比现有最优基线将成功率提升了至多28.3个百分点,且能绕过强单轮审核器。免责声明:论文包含有害或冒犯性语言示例。
💡 推荐理由: 揭示了现有LLM代理安全防御中的盲区——跨上下文、跨步骤的工件溯源缺失,使攻击者能隐蔽地通过无害中间步骤组合出有害行为,对部署于生产环境的工具型代理构成实际威胁。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)