#discourse-level-attack

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yuyang Gong, Miaokun Chen, Jiawei Liu, Zhuo Chen, Guoxiu He, Wei Lu, XiaoFeng Wang, Xiaozhong Liu

本文提出了一种针对检索增强生成(RAG)系统的新型攻击范式——话语级意见操纵。RAG系统通过结合外部语料库来增强大语言模型的回答,但这也引入了检索内容投毒的安全风险。现有攻击大多聚焦于单个查询或狭窄主题的局部查询集,实际影响有限且易于察觉。作者定义了话语级意见操纵威胁模型:攻击者通过构造一个语义查询网络,在多个主题相关的查询上协调操纵检索结果,诱导系统在整体多主题查询空间中产生连续的、目标导向的意见偏移。该威胁模型假设黑盒场景,攻击者只能通过投毒外部文档(即检索语料库)来影响系统输出,且受限于投毒预算。为此,作者提出DiscourseFlip,一种智能体驱动的图引导攻击方法。其核心思想是:将查询网络建模为图,利用图结构分析各节点(查询)的意见传播影响,动态分配有限的投毒预算到关键节点(文档),以最大化全局意见偏离。实验使用多个主题的RAG系统(如基于Llama2-7B的RAG)进行验证,结果表明DiscourseFlip能持续、高效地诱导目标意见偏移,在覆盖率和有效性上显著优于现有的基线攻击(如基于单一查询的投毒或随机投毒)。用户研究表明,被操纵后的回答不易被用户察觉。此外,系统分析发现当前主流的防御策略(如输入过滤、对抗训练)无法有效抵御这种话语级操纵,凸显了开发鲁棒自适应防御的紧迫性。本文主要贡献在于:(1)定义了RAG系统的新威胁模型;(2)提出了有效的图引导攻击算法;(3)揭示了现有防御的不足。适合RAG安全研究者、LLM应用开发者和安全分析师阅读。

💡 推荐理由: 揭示了RAG系统在话语级操纵下的新安全漏洞,现有防御几乎无效,直接影响大模型输出可靠性和用户信任。

🎯 建议动作: 研究跟进,评估内部RAG系统对分布式、多话题操纵的脆弱性,探索图结构检测与鲁棒检索策略。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)