#token-influence 主题 - Cyber Security Daily Radar

👥 作者: Yan-Lun Chen, Pin-Yu Chen, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

该论文针对检索增强生成（RAG）系统面临的语料库投毒攻击问题，提出了一种轻量级检测框架TRACE。RAG系统通过检索外部文档来增强大语言模型的生成能力，但攻击者可向检索库中注入恶意文档，诱导模型输出特定目标答案。现有检测方法通常依赖额外的分类器或基于LLM的验证，计算开销较大。TRACE通过令牌影响归因（token influence attribution）来识别投毒攻击：首先在所有检索到的文档中寻找具有高影响力的重复关键词（recurrent high-influence keywords），这些关键词可能是攻击者植入的触发词；然后进行二次验证，确认这些关键词对模型预测的实质性影响。该方法无需训练辅助模型或调用外部LLM，仅需分析模型内部的梯度或注意力信号。实验在三个问答基准数据集（如Natural Questions、TriviaQA等）和六个主流LLM（包括GPT系列、LLaMA等）上进行，结果表明TRACE能够有效检测投毒攻击，且计算开销远低于对比方法。此外，TRACE还能揭示攻击者指定的目标答案，为后续防御提供线索。该工作为RAG系统的安全性提供了一种实用且高效的检测方案。

💡 推荐理由: RAG系统在工业界广泛部署，语料库投毒攻击威胁其可信输出。TRACE提供了一种轻量级、无需额外模型的检测方法，可集成到现有流水线中，提升安全水位。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#token-influence

Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution