#discourse-level-attack 主题 - Cyber Security Daily Radar

👥 作者: Yuyang Gong, Miaokun Chen, Jiawei Liu, Zhuo Chen, Guoxiu He, Wei Lu, XiaoFeng Wang, Xiaozhong Liu

本文提出了一种针对检索增强生成（RAG）系统的新型攻击范式——话语级意见操纵。RAG系统通过结合外部语料库来增强大语言模型的回答，但这也引入了检索内容投毒的安全风险。现有攻击大多聚焦于单个查询或狭窄主题的局部查询集，实际影响有限且易于察觉。作者定义了话语级意见操纵威胁模型：攻击者通过构造一个语义查询网络，在多个主题相关的查询上协调操纵检索结果，诱导系统在整体多主题查询空间中产生连续的、目标导向的意见偏移。该威胁模型假设黑盒场景，攻击者只能通过投毒外部文档（即检索语料库）来影响系统输出，且受限于投毒预算。为此，作者提出DiscourseFlip，一种智能体驱动的图引导攻击方法。其核心思想是：将查询网络建模为图，利用图结构分析各节点（查询）的意见传播影响，动态分配有限的投毒预算到关键节点（文档），以最大化全局意见偏离。实验使用多个主题的RAG系统（如基于Llama2-7B的RAG）进行验证，结果表明DiscourseFlip能持续、高效地诱导目标意见偏移，在覆盖率和有效性上显著优于现有的基线攻击（如基于单一查询的投毒或随机投毒）。用户研究表明，被操纵后的回答不易被用户察觉。此外，系统分析发现当前主流的防御策略（如输入过滤、对抗训练）无法有效抵御这种话语级操纵，凸显了开发鲁棒自适应防御的紧迫性。本文主要贡献在于：（1）定义了RAG系统的新威胁模型；（2）提出了有效的图引导攻击算法；（3）揭示了现有防御的不足。适合RAG安全研究者、LLM应用开发者和安全分析师阅读。

💡 推荐理由: 揭示了RAG系统在话语级操纵下的新安全漏洞，现有防御几乎无效，直接影响大模型输出可靠性和用户信任。

🎯 建议动作: 研究跟进，评估内部RAG系统对分布式、多话题操纵的脆弱性，探索图结构检测与鲁棒检索策略。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#discourse-level-attack

DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation