推荐 5.5
Conf: 50%
该论文首次提出并形式化了一种针对BYOK(自带密钥)智能体架构的新威胁——对齐后篡改攻击。在BYOK架构中,用户将LLM流量路由通过第三方中继,但中继在LLM生成响应后、智能体执行前可以修改结果,从而破坏对齐。作者将该威胁实例化为中继篡改攻击(RTA),其包含三种技术:多轮策略性改写、最小化安全关键编辑、以及通过将篡改输出重新提交给上游LLM来实现隐秘恢复。实验在AgentDojo和ASB基准上使用6种LLM进行,RTA达到了最高99.1%的攻击成功率,远超基于提示注入的基线,且开销适中。案例研究(OpenClaw和Claude Code)展示了现实可行性。评估了四种防御,发现没有一种能完全阻止RTA。最后,作者提出了一种基于时间的检测防御,可在保持智能体实用性的同时缓解RTA。该研究揭示了BYOK架构中端到端完整性的关键缺口,对设计安全智能体系统具有重要启示。
💡 推荐理由: 该攻击针对当前日益流行的BYOK智能体部署模式,绕过对齐防御实现高成功率,且现有防御措施不全,对采用该架构的企业构成潜在安全风险。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)