#token-influence

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yan-Lun Chen, Pin-Yu Chen, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

该论文针对检索增强生成(RAG)系统面临的语料库投毒攻击问题,提出了一种轻量级检测框架TRACE。RAG系统通过检索外部文档来增强大语言模型的生成能力,但攻击者可向检索库中注入恶意文档,诱导模型输出特定目标答案。现有检测方法通常依赖额外的分类器或基于LLM的验证,计算开销较大。TRACE通过令牌影响归因(token influence attribution)来识别投毒攻击:首先在所有检索到的文档中寻找具有高影响力的重复关键词(recurrent high-influence keywords),这些关键词可能是攻击者植入的触发词;然后进行二次验证,确认这些关键词对模型预测的实质性影响。该方法无需训练辅助模型或调用外部LLM,仅需分析模型内部的梯度或注意力信号。实验在三个问答基准数据集(如Natural Questions、TriviaQA等)和六个主流LLM(包括GPT系列、LLaMA等)上进行,结果表明TRACE能够有效检测投毒攻击,且计算开销远低于对比方法。此外,TRACE还能揭示攻击者指定的目标答案,为后续防御提供线索。该工作为RAG系统的安全性提供了一种实用且高效的检测方案。

💡 推荐理由: RAG系统在工业界广泛部署,语料库投毒攻击威胁其可信输出。TRACE提供了一种轻量级、无需额外模型的检测方法,可集成到现有流水线中,提升安全水位。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)