#oracle-poisoning 主题 - Cyber Security Daily Radar

👥 作者: Ben Kereopa-Yorke, Guillermo Diaz, Holly Wright, Reagan Johnston, Ron F. Del Rosario, Timothy Lynar

本文定义了一种名为“Oracle Poisoning”的新攻击类别，攻击者通过破坏AI代理在运行时通过工具使用协议查询的结构化知识图谱，导致代理在正确推理的前提下得出错误结论。与提示注入不同，Oracle Poisoning操纵的是代理推理所依据的数据，而非指令。作者针对一个包含4200万节点的生产级代码知识图谱演示了六种攻击场景，首次在真实规模的代理系统中提供了知识图谱投毒的经验性证据，区别于传统的CTI嵌入投毒。主要评估使用来自三家提供商的九个模型的真实SDK工具调用（每个模型N=30），模型自主调用图查询工具并从结果中推理。结果明确：在中等攻击者复杂度（L2）下，每个测试模型以100%的概率信任中毒数据，在270次定向查询试验中有269次接受了伪造的安全声明。在开放式提示下，信任率下降至3-55%，证实提示框架是一个混杂变量；论文报告了两种条件。攻击者复杂度梯度揭示了离散的转折点，即信任从0%跃升至100%所需的最低技能水平，将攻击重新定义为“不是是否发生，而是程度如何”的问题。受控的交付模式比较表明，内联评估会产生假阴性：GPT-5.1在内联下显示0%信任，但在模拟和真实代理工具使用下均为100%，证明交付模式是一阶混杂变量。作者评估了五种防御措施；只读访问控制消除了直接修改向量，其余四种是部分且模型依赖的。对另外四个平台的分析表明，该攻击可能在知识图谱生态系统中普遍存在。

💡 推荐理由: 揭示了AI代理的一个关键新攻击面：数据源投毒可绕过推理完整性，且当前模型普遍缺乏防御能力。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#oracle-poisoning

Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning