#poisoning 主题 - Cyber Security Daily Radar

👥 作者: Roei Schuster, Congzheng Song, Eran Tromer, Vitaly Shmatikov

本文研究了神经代码自动完成器（基于Pythia和GPT-2的新型自动完成系统）面临的数据投毒和模型投毒攻击。代码自动完成是现代IDE的核心功能，最新一代自动完成器使用在公开开源代码上训练的神经语言模型，根据当前上下文提供智能建议。研究发现，攻击者可以通过向训练语料中添加少数精心构造的恶意文件（数据投毒）或直接在恶意文件上微调自动完成器（模型投毒），使其在特定上下文中推荐不安全代码，例如AES加密的不安全ECB模式、SSL/TLS协议的SSLv3版本、或密码加密的低迭代次数。进一步地，攻击可以具有针对性：定向投毒后，自动完成器对来自特定仓库或特定开发者的文件更可能推荐不安全的补全。实验量化了定向和非定向数据投毒与模型投毒攻击的有效性，并测试了现有防御（如基于困惑度的过滤、差分隐私训练），发现它们基本无效。论文揭示了神经代码自动完成系统的新型供应链安全风险，并强调了开发鲁棒性防御的紧迫性。

💡 推荐理由: 如果攻击成功，开发者使用的IDE可能被恶意植入不安全代码建议，导致软件供应链中毒。这对依赖代码自动完成提高生产力的开发团队构成直接威胁，且现有防御手段不足。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yan-Lun Chen, Pin-Yu Chen, Chia-Mu Yu, Ying-Dar Lin, Yu-Sung Wu, Wei-Bin Lee

该论文针对检索增强生成（RAG）系统面临的语料库投毒攻击问题，提出了一种轻量级检测框架TRACE。RAG系统通过检索外部文档来增强大语言模型的生成能力，但攻击者可向检索库中注入恶意文档，诱导模型输出特定目标答案。现有检测方法通常依赖额外的分类器或基于LLM的验证，计算开销较大。TRACE通过令牌影响归因（token influence attribution）来识别投毒攻击：首先在所有检索到的文档中寻找具有高影响力的重复关键词（recurrent high-influence keywords），这些关键词可能是攻击者植入的触发词；然后进行二次验证，确认这些关键词对模型预测的实质性影响。该方法无需训练辅助模型或调用外部LLM，仅需分析模型内部的梯度或注意力信号。实验在三个问答基准数据集（如Natural Questions、TriviaQA等）和六个主流LLM（包括GPT系列、LLaMA等）上进行，结果表明TRACE能够有效检测投毒攻击，且计算开销远低于对比方法。此外，TRACE还能揭示攻击者指定的目标答案，为后续防御提供线索。该工作为RAG系统的安全性提供了一种实用且高效的检测方案。

💡 推荐理由: RAG系统在工业界广泛部署，语料库投毒攻击威胁其可信输出。TRACE提供了一种轻量级、无需额外模型的检测方法，可集成到现有流水线中，提升安全水位。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Till Gehlhar, Felix Marx, Thomas Schneider 0003, Ajith Suresh, Tobias Wehrle, Hossein Yalame

联邦学习（FL）因其在本地训练模型并保护隐私的能力而在各行业广泛流行。然而，FL系统容易受到隐私推断攻击和投毒攻击，这两类攻击可能由恶意参与者破坏系统。尽管已有大量工作分别应对这些攻击，但对两者组合攻击的研究关注有限。为填补这一空白，本文提出了SafeFL，一个基于安全多方计算（MPC）的框架，旨在评估FL技术在同时应对隐私推断和投毒攻击方面的有效性。SafeFL的核心是一个通信器接口，使得基于PyTorch的实现能够利用成熟的MP-SPDZ框架，后者实现了多种MPC协议。SafeFL的目标是促进开发更高效的FL系统，以有效应对隐私推断和投毒攻击。该框架为研究人员和从业者提供了一个评估平台，以测试不同防御机制的鲁棒性。

💡 推荐理由: 联邦学习面临隐私与安全双重威胁，现有研究多分开处理，而SafeFL首次提供统一MPC框架评估组合攻击，对构建鲁棒隐私保护FL系统有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Md Abdullah Al Mamun, Ngoc Phu Doan, Pedram Zaree, Ihsen Alouani, Nael Abu-Ghazaleh

本文研究了一种针对大型语言模型（LLM）的新型训练数据提取攻击。攻击者通过投毒一小部分训练数据，能够诱导模型泄露一条攻击者无法访问的目标记录（例如私有医疗记录或用户对话）。核心洞察是：通过在目标完成点附近重塑模型的局部损失景观，使其成为尖锐的损失最小值，同时抬高周围替代方案的损失，从而迫使模型将该目标记忆为邻域内唯一的低损失解。该攻击无需修改模型架构，且适用于集中式训练和联邦学习场景。实验表明，在纯语言模型上提取成功率达100%，在视觉-语言模型上达90%。此外，虽然差分隐私（DP）训练能够阻止该攻击，但作者提出了一种新型攻击，通过直接探测损失景观来绕过差分隐私保护。该研究揭示了即使在被认为安全的训练设置中，投毒攻击仍可能造成严重隐私泄露，强调了在LLM训练中需要更强大的隐私保护机制。

💡 推荐理由: 该攻击展示了一种新颖的隐私泄露路径：攻击者通过投毒少量训练数据，即可定向提取从未见过的目标数据，且成功率极高。这对使用LLM处理敏感数据的组织构成严重威胁，并揭示了现有差分隐私防御的局限性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pedro Pereira, Eva Maia, Isabel Praça, Adrien Bécue

检索增强生成（RAG）系统通过在推理时从外部知识源检索文档来增强大语言模型的生成能力，但这种对外部检索内容的依赖也引入了投毒攻击的脆弱性：攻击者可以通过注入对抗性文档来操纵检索过程和生成输出。本文通过一个涵盖432种配置的全因子实验研究，系统分析了RAG系统在投毒攻击下的鲁棒性。研究考察了数据集、检索器类型（BM25、密集检索、基于图的检索）、检索深度、数据库组成（仅投毒、投毒与干净混合、多个数据库）、分块策略（固定长度、按句子分割等）以及生成模型（如LLaMA、Mistral等）对检索层面指标（如检索命中率、召回率）和生成层面指标（如幻觉率、目标答案出现率）的影响。实验结果表明：检索器架构、数据集和检索深度是影响投毒暴露程度的最强因素；生成模型的选择和数据库组成对下游攻击成功率影响显著。具体来说，密集检索器和基于图的检索器相比BM25通常更鲁棒，而增大检索深度会显著增加检索到投毒段落的概率。研究还发现，在多个数据库中复制投毒内容会放大对抗性影响，而增加额外的干净来源则可以缓解这种影响。该工作揭示了RAG投毒脆弱性并非由单一组件导致，而是检索、生成和知识库配置之间相互作用的综合结果。

💡 推荐理由: 为RAG系统安全部署提供了首个系统性的因素分析，帮助安全从业者识别投毒攻击中最关键的配置变量（检索深度、检索器类型等），并指导防御策略的优先级。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yv Zhang, Hao Sun, Hao Fang, Kuofeng Gao, Fan Mo, Bin Chen, Shu-Tao Xia, Yaowei Wang

本文研究了多模态Web智能体（Web Agent）中外部记忆组件（External Memory）的安全漏洞。现代Web智能体通常依赖外部记忆来存储长期经验，通过检索历史记录实现长程推理。然而，这种架构引入了一个关键风险：恶意内容若被注入记忆，可能在后续交互中被持续召回并反复影响智能体行为。作者系统性地识别并研究了多模态记忆投毒（Multimodal Memory Poisoning）这一此前被忽视的攻击面，并提出了一个统一的黑盒攻击框架MemVenom。该框架针对图结构的外部记忆，利用文本-图像协同证据进行投毒。其设计包含两个阶段：第一阶段是触发器条件检索攻击（Trigger-conditioned Retrieval Attack），确保恶意记忆以高概率被召回；第二阶段是检索后诱导攻击（Post-retrieval Attack Induction），通过对抗性扰动和隐蔽OCR注入覆盖用户原始目标。与以往基于提示或纯文本记忆的攻击不同，MemVenom无需修改模型参数或重新优化恶意任务，即可实现持久、可复用且目标无关的攻击。在多种Web智能体框架和视觉语言模型上的实验表明，MemVenom在GPT-5系列Web智能体上达到最高99.15%的成功率，且对良性性能影响极小，并在不同架构和模型规模间具有良好的迁移性。

💡 推荐理由: 首次系统性地揭示了多模态Web智能体外部记忆组件中的投毒攻击面，对依赖记忆的AI系统安全具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Khang Tran, Yazan Boshmaf, Issa Khalil, NhatHai Phan, Ting Yu, Md Rizwan Parvez

本文提出一种名为Poison-with-Style (PwS)的实用且隐蔽的模型投毒攻击，针对代码大语言模型（CLLM）。与以往假设攻击者能够在推理时主动将显式触发器（如特定单词）嵌入开发者提示中的攻击不同，PwS利用开发者的代码风格作为隐式触发器，这些触发器自然地蕴含在提示中。PwS引入了一种新颖的数据收集方法和两步训练策略来微调CLLM，使得模型在遇到包含特定代码风格的提示时生成含漏洞的代码，而在其他提示下保持正常行为。在Python代码补全任务上的实验表明，PwS能够抵御最先进的防御措施，并在多种漏洞类型上实现高攻击成功率，同时保持标准代码补全基准（如HumanEval和MBPP）上的良好性能。例如，当使用触发代码风格时，PwS投毒的模型在95%的情况下生成CWE-20漏洞代码，而在HumanEval和MBPP上的pass@1性能下降不到5%。该研究表明，代码风格这种看似无害的特征可被用作隐蔽的后门触发器，对基于CLLM的代码代理构成严重威胁，并凸显了需要更细粒度的防御策略来检测此类隐式触发器的必要性。

💡 推荐理由: 该攻击利用开发者自然的代码风格作为隐蔽触发器，极具实用性和隐蔽性，能绕过现有防御，威胁基于代码大模型的智能代理安全。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: David Košťál, Martin Jureček

该论文提出了一个对抗性恶意软件数据集，基于公开的RawMal-TF真实恶意软件二进制文件集合。作者使用一套对抗性恶意软件生成器，构建了两个对抗性PE文件数据集：一个包含44,347个按家族标记的样本，另一个包含33,596个按类型标记的样本。这两个数据集针对EMBER分类器分别实现了98.35%和92.20%的逃逸率。每个对抗二进制文件都附有详细元数据，包括EMBER评分和VirusTotal分类结果。此外，论文通过一系列训练实验展示了恶意软件分类管道对数据投毒攻击的脆弱性：在家族标记数据集中仅注入0.5%的完全错误标记的对抗样本，就使得针对重新训练分类器的逃逸率从26.1%增加到92.8%。该数据集已公开发布，旨在促进对抗性恶意软件、投毒攻击以及基于机器学习的恶意软件检测系统鲁棒性的未来研究。

💡 推荐理由: 该研究提供了高逃逸率的对抗样本数据集，揭示了机器学习恶意软件检测系统面临的对抗性逃避和数据投毒双重威胁，对安全防御者评估和加固检测模型具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peiru Yang, Haoran Zheng, Tong Ju, Shiting Wang, Wanchun Ni, Jiajun Liu, Shangguang Wang, Yongfeng Huang, Tao Qi

本文研究了多模态检索增强生成（RAG）系统在医疗应用中的安全性，重点关注知识投毒攻击。现有攻击大多假设攻击者掌握用户查询的先验知识，这在真实场景中难以实现。为此，作者提出了M³Att攻击框架，仅需了解数据库的有限分布知识。核心思路是：向文本数据中注入隐蔽的虚假信息，同时利用配对的视觉数据作为与查询无关的触发器，以操纵检索概率。攻击者通过向视觉输入施加不可察觉的扰动来改变检索结果，并利用医疗诊断的固有模糊性设计隐蔽错误信息注入策略，使模型生成临床看似合理但错误的诊断，同时规避大语言模型（LLM）的自我纠正。在五个LLM和数据集上的实验表明，M³Att能持续产生合理但错误的输出。该研究揭示了医疗多模态RAG系统的脆弱性，为防御机制设计提供了参考。

💡 推荐理由: 医疗RAG系统依赖外部知识库，若被投毒可能导致错误诊断，威胁患者安全。本攻击不依赖用户查询先验，更贴近真实威胁，值得安全从业者关注。

🎯 建议动作: 研究跟进，评估内部医疗RAG系统对此类攻击的脆弱性，并探索输入过滤、异常检测等防御机制。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Huiyu Xu, Zhibo Wang, Wenhui Zhang, Ziqi Zhu, Yaopeng Wang, Kui Ren, Chun Chen

本文针对现代 LLM 代理在执行复杂任务时采用的迭代执行循环机制，提出了一种新型攻击——终止毒化（Termination Poisoning）。在这种循环中，代理反复进行推理、行动和自我评估，以判断任务是否完成。攻击者通过向代理的上下文注入恶意提示，扭曲其终止判断，使其误以为任务尚未完成，从而导致无限制的计算资源消耗，类似于拒绝服务攻击。作者系统定义了该威胁，并设计了 10 种具有代表性的攻击策略。通过对 8 个不同的 LLM 代理和 60 个任务的实证研究，发现不同代理在执行循环中表现出独特的行为特征，这些特征可预测哪些攻击策略有效。基于这些发现，作者提出了 LoopTrap，一个自动化的红队框架，它通过轻量探测构建目标代理的行为画像（沿四个脆弱性维度），然后自适应合成恶意提示：选择最有效的策略并通过自评分机制优化注入时机。成功攻击被抽象为可复用的技能库，失败尝试则通过自我反思进行改进。实验表明，LoopTrap 在 8 个主流代理上实现了平均 3.57 倍的步骤放大，峰值达到 25 倍。这篇论文揭示了 LLM 代理安全中的一个重要盲点，并为自动化红队测试提供了新工具。

💡 推荐理由: LLM 代理的自主循环决策机制是新兴攻击面，本攻击利用代理自身逻辑导致资源耗尽，且可自动化，对依赖代理的自动化服务构成可用性威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Wenwei Zhao, Xiaowen Li, Yao Liu, Zhuo Lu

联邦学习（FL）易受到投毒攻击，恶意客户端会上传篡改的模型更新以降低全局模型的性能。现有的检测方法虽能识别并移除恶意客户端，但模型已受污染，仍需恢复。从头再训练虽然有效但成本高昂，而现有的遗忘方法在效果和效率上均不理想。本文提出联邦对抗遗忘（FAUN），一种轻量级框架，仅保留恶意客户端最近一小段更新历史，并利用代理数据集进行对抗优化，生成能消除恶意方向的更新。通过少量遗忘轮次应用这些更新，随后进行良性微调，即可快速移除恶意影响并稳定恢复。在三个经典数据集上的实验表明，FAUN 能达到与再训练相当的恢复效果，且所需轮次大幅减少，攻击成功率降至接近零，证明了 FAUN 成功消除了被遗忘客户端的贡献。

💡 推荐理由: 联邦学习中毒攻击的模型恢复是一个关键但资源密集的问题。FAUN 提供了一种高效、低成本的替代方案，可快速清除恶意影响，对保障 FL 系统安全具有重要实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#poisoning

You Autocomplete Me: Poisoning Vulnerabilities in Neural Code Completion.

Tracing Target Answers in Poisoned Retrieval Corpora via Token Influence Attribution

SafeFL: MPC-friendly Framework for Private and Robust Federated Learning.

Loss Landscape Poisoning: Targeted Extraction of Unseen Training Data from LLMs

Influence Factors on RAG Poisoning

MemVenom: Triggered Poisoning of Multimodal Memories in Web Agents

Poison with Style: A Practical Poisoning Attack on Code Large Language Models

Building an Adversarial Malware Dataset by Family and Type: Generation, Evasion, and Poisoning Evaluation

Knowledge Poisoning Attacks on Medical Multi-Modal Retrieval-Augmented Generation

LoopTrap: Termination Poisoning Attacks on LLM Agents

Adversarial Update-Based Federated Unlearning for Poisoned Model Recovery