#oracle-poisoning

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Ben Kereopa-Yorke, Guillermo Diaz, Holly Wright, Reagan Johnston, Ron F. Del Rosario, Timothy Lynar

本文定义了一种名为“Oracle Poisoning”的新攻击类别,攻击者通过破坏AI代理在运行时通过工具使用协议查询的结构化知识图谱,导致代理在正确推理的前提下得出错误结论。与提示注入不同,Oracle Poisoning操纵的是代理推理所依据的数据,而非指令。作者针对一个包含4200万节点的生产级代码知识图谱演示了六种攻击场景,首次在真实规模的代理系统中提供了知识图谱投毒的经验性证据,区别于传统的CTI嵌入投毒。主要评估使用来自三家提供商的九个模型的真实SDK工具调用(每个模型N=30),模型自主调用图查询工具并从结果中推理。结果明确:在中等攻击者复杂度(L2)下,每个测试模型以100%的概率信任中毒数据,在270次定向查询试验中有269次接受了伪造的安全声明。在开放式提示下,信任率下降至3-55%,证实提示框架是一个混杂变量;论文报告了两种条件。攻击者复杂度梯度揭示了离散的转折点,即信任从0%跃升至100%所需的最低技能水平,将攻击重新定义为“不是是否发生,而是程度如何”的问题。受控的交付模式比较表明,内联评估会产生假阴性:GPT-5.1在内联下显示0%信任,但在模拟和真实代理工具使用下均为100%,证明交付模式是一阶混杂变量。作者评估了五种防御措施;只读访问控制消除了直接修改向量,其余四种是部分且模型依赖的。对另外四个平台的分析表明,该攻击可能在知识图谱生态系统中普遍存在。

💡 推荐理由: 揭示了AI代理的一个关键新攻击面:数据源投毒可绕过推理完整性,且当前模型普遍缺乏防御能力。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)