#react-agents

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Mohammadreza Rashidi

该论文研究了工具调用ReAct智能体(如GPT-4o-mini和Claude Haiku)在面对间接提示注入攻击时的脆弱性。ReAct智能体交替进行链式思考推理和工具调用,广泛应用于日程安排、文件检索等实际任务。其工具观测循环存在攻击面:攻击者可通过控制工具返回值嵌入恶意指令,从而劫持智能体行为。现有基准仅在固定条件下评估攻击成功率(ASR),忽略了三个关键维度:注入位置(注入深度)、Payload的修辞风格(框架)以及智能体允许的轮次数量(轮次上限)。作者针对五个攻击类别设计了20个场景,共进行460次试验,总API成本低于0.36美元。研究1显示,GPT-4o-mini的ASR从深度1的60%衰减至深度4和5的0%(Cramer's V=0.58, p<0.001);在深度1-3内,V=0.47, p=0.0013,表明深度是主导变量。研究2中,Claude Haiku在所有深度均实现0% ASR,归因于其保守的工具调用和指令抵抗能力。研究3发现,框架调节可使深度1的ASR在25%(中性)到75%(人格化)之间变化,但未达到统计显著性(每组N=20)。研究4确认ASR在轮次上限3、5、7下稳定,表明轮次预算不是风险因素。结论指出,仅清理第一个工具观测值即可捕获67%的注入成功。该研究为设计更安全的智能体系统提供了重要见解。

💡 推荐理由: 揭示了ReAct智能体在工具调用深度上的关键脆弱性,为防御者提供了量化风险依据,并指出清洁首个工具响应可有效防御。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)