#react-agents 主题 - Cyber Security Daily Radar

👥 作者: Mohammadreza Rashidi

该论文研究了工具调用ReAct智能体（如GPT-4o-mini和Claude Haiku）在面对间接提示注入攻击时的脆弱性。ReAct智能体交替进行链式思考推理和工具调用，广泛应用于日程安排、文件检索等实际任务。其工具观测循环存在攻击面：攻击者可通过控制工具返回值嵌入恶意指令，从而劫持智能体行为。现有基准仅在固定条件下评估攻击成功率（ASR），忽略了三个关键维度：注入位置（注入深度）、Payload的修辞风格（框架）以及智能体允许的轮次数量（轮次上限）。作者针对五个攻击类别设计了20个场景，共进行460次试验，总API成本低于0.36美元。研究1显示，GPT-4o-mini的ASR从深度1的60%衰减至深度4和5的0%（Cramer's V=0.58, p<0.001）；在深度1-3内，V=0.47, p=0.0013，表明深度是主导变量。研究2中，Claude Haiku在所有深度均实现0% ASR，归因于其保守的工具调用和指令抵抗能力。研究3发现，框架调节可使深度1的ASR在25%（中性）到75%（人格化）之间变化，但未达到统计显著性（每组N=20）。研究4确认ASR在轮次上限3、5、7下稳定，表明轮次预算不是风险因素。结论指出，仅清理第一个工具观测值即可捕获67%的注入成功。该研究为设计更安全的智能体系统提供了重要见解。

💡 推荐理由: 揭示了ReAct智能体在工具调用深度上的关键脆弱性，为防御者提供了量化风险依据，并指出清洁首个工具响应可有效防御。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#react-agents

Depth-Dependent Indirect Prompt Injection in Tool-Calling ReAct Agents: Injection Depth, Payload Framing, and Turn-Budget Sensitivity