#byok 主题 - Cyber Security Daily Radar

👥 作者: Mingyu Luo, Zihan Zhang, Zesen Liu, Yuchong Xie, Zhixiang Zhang, Dung Hiu Hilton Yeung, Wai Ip Lai, Ping Chen, Ming Wen, Dongdong She

该论文首次提出并形式化了一种针对BYOK（自带密钥）智能体架构的新威胁——对齐后篡改攻击。在BYOK架构中，用户将LLM流量路由通过第三方中继，但中继在LLM生成响应后、智能体执行前可以修改结果，从而破坏对齐。作者将该威胁实例化为中继篡改攻击（RTA），其包含三种技术：多轮策略性改写、最小化安全关键编辑、以及通过将篡改输出重新提交给上游LLM来实现隐秘恢复。实验在AgentDojo和ASB基准上使用6种LLM进行，RTA达到了最高99.1%的攻击成功率，远超基于提示注入的基线，且开销适中。案例研究（OpenClaw和Claude Code）展示了现实可行性。评估了四种防御，发现没有一种能完全阻止RTA。最后，作者提出了一种基于时间的检测防御，可在保持智能体实用性的同时缓解RTA。该研究揭示了BYOK架构中端到端完整性的关键缺口，对设计安全智能体系统具有重要启示。

💡 推荐理由: 该攻击针对当前日益流行的BYOK智能体部署模式，绕过对齐防御实现高成功率，且现有防御措施不全，对采用该架构的企业构成潜在安全风险。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#byok

When Alignment Isn't Enough: Response-Path Attacks on LLM Agents