#knowledge-poisoning 主题 - Cyber Security Daily Radar

👥 作者: Juho Park, Hyunmin Choi, Kevin Nam

本文研究了针对基于检索增强生成（RAG）的AI安全代理的知识投毒攻击。随着安全代理越来越多地依赖RAG从外部知识源（如CVE报告、CTF write-ups）获取漏洞分析和利用推理信息，攻击者可以通过注入恶意构造的write-up（称为Poisoned Playbooks）来操控代理的行为。作者在11个CTF挑战、3个先进LLM系列（含2代模型）和11个真实CVE上进行了系统实验，发现投毒效果具有系统性而非随机性：多数情况下，代理会采纳被投毒的信息并产生错误的行为。为解释这一现象，作者提出了验证边界（Verification Boundary, VB）的概念，这是一个三层次的经验分类，基于代理能够利用何种证据来反驳检索到的声明。此外，作者评估了验证提示（verification prompting）和多源检索（multi-source retrieval）两种防御措施，发现它们在存在强证据时有效，但在证据稀疏或零日条件下效果减弱。本文揭示了RAG安全代理面对知识污染时的脆弱性，并为设计更鲁棒的防御策略提供了理论基础。

💡 推荐理由: 揭示了AI安全代理在依赖外部知识时面临的新型投毒风险，对构建可信的自动化安全工具具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zhe Yu, Wenpeng Xing, Gaolei Li, Shuguang Xiong, Hongzhi Wang, Xuyang Teng, Meng Han

该论文针对检索增强生成（RAG）系统面临的知识投毒攻击，提出了一种基于信息流控制的防御框架CORDON-MAS。研究发现，现有防御方法（如污染检测）存在监控-控制差距：模型能够检测到检索结果中的矛盾证据，但仍会基于被污染的文档生成有害输出。作者提出科登原则（Cordon Principle）：任何负责最终合成的智能体不得直接访问未受信任的自然语言证据。基于此原则，设计了CORDON-MAS框架，通过将证据提取、跨源审计和答案合成分离为具有非对称内存权限的独立智能体，从架构上强制实施信息流控制。在五个BEIR数据集上的实验表明，相比无防御的RAG系统，CORDON-MAS将攻击成功率降低了92.4%。该工作将RAG投毒问题从检测问题重新定义为信息流控制问题，为构建可信RAG系统提供了新思路。

💡 推荐理由: 首次揭示了RAG防御中监控-控制差距的存在，并提出将投毒防御从检测转向信息流控制的新范式，对保障基于RAG的高风险应用安全具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#knowledge-poisoning

Poisoned Playbooks: Demystifying Knowledge Poisoning Effects on AI Security Agents

Cordon-MAS: Defending RAG against Knowledge Poisoning via Information-Flow Control