#data-poisoning 主题 - Cyber Security Daily Radar

👥 作者: Pushkal Kumar, Tucker Nielson, Tanish Kolhe, Shubham Zala, Vincent Li

该论文提出了一种针对检索增强生成（RAG）系统数据投毒攻击的分层防御框架 RAGuard。RAG 系统通过检索外部语料库来增强大语言模型（LLM）的回答，但这种依赖也引入了安全风险：攻击者可以向语料库中注入精心设计的恶意文本片段，从而操纵检索结果并影响模型生成内容。论文聚焦于“事实性”语料投毒攻击，即注入包含虚构事实、矛盾信息或推理陷阱的文本。RAGuard 包含两层防御：第一层是对稠密检索器进行对抗性微调。研究者使用合成的投毒文档（包含伪造事实、矛盾和推理陷阱）微调检索器，使其学会在生成之前降低恶意片段的排序。第二层是零知识推理补丁（ZKIP），这是一种基于黑盒模型的无需标签的过滤器。对于每个检索到的文档，ZKIP 通过逐一排除（leave-one-out）解码方式，比较在有无该文档的情况下模型回答的语义偏移和输出熵变化，从而评估该文档对答案的影响。ZKIP 不依赖投毒标签、标准答案或模型内部权重，仅需对比模型在反事实上下文下的输出。在自然问答数据集（Natural Questions）上，投毒比例从 5% 到 30% 的实验中，仅进行对抗性检索器训练可以降低攻击成功率但仍无法根除；而加入 ZKIP 后，在所有被测试的防御配置下，攻击成功率均降至 0.000，同时将召回率（Recall@5）保持在干净语料库基线的 0.03 以内。此外，在 BEIR 的 NFCorpus 子集上的监督分析验证了 ZKIP 所依赖的反事实信号具有可学习的投毒结构。防御带来的开销是每个查询需要 k+1 次生成器推理（k=5 时为 6 倍），论文分析了批处理和提前停止等近似方法来减少开销。作者还指出，保留关键字的投毒方法几乎不影响基于词法的检索器（如 BM25），这界定了威胁模型的范围。为便于复现，论文公开了代码、数据集和评估框架。

💡 推荐理由: 针对 RAG 数据投毒攻击提供了分层防御方案，无需修改生成模型，且 ZKIP 黑盒特性易于集成。实验证明可将攻击成功率降至 0，同时保持检索质量，对构建可信 RAG 系统具有重要参考价值。

🎯 建议动作: 研究跟进

👥 作者: Zhou Feng, Jiahao Chen, Chunyi Zhou, Yuan Su, Tianyu Du, Yuwen Pu, Jianhai Chen, Jinbao Li, Shouling Ji

该论文提出了一种名为 Lilith 的黑盒后门攻击框架，首次系统研究“训练-推理触发器移位”下的后门泛化问题。现有后门攻击研究大多假设训练时使用的触发器与推理时完全一致，或仅考虑训练中已暴露的触发器变体、沿预定变换轴的扰动，而忽略了训练时学习的后门能否泛化到训练阶段完全未见过的一类推理触发器。Lilith 仅利用与受害者数据不相交的替代资源，先通过单个训练锚点诱导出一个紧凑的目标侧脆弱性，再构造一个有界的、仅推理阶段的触发器族，该触发器族能保持锚点诱导的表示几何结构。作者用锚点间隙和族到达范围刻画该机制，并推导出在局部正则性和有界替代-受害者差异下实现族级目标保持的充分条件。实验覆盖多种数据集、架构、投毒比例和防御方法，表明 Lilith 能以较低的效用损失和较小的触发器泛化差距实现高族级攻击成功率。进一步分析显示，族的激活取决于表示对齐而非触发器提议机制，这揭示出仅评估精确触发器匹配的传统后门评估所忽视的更广泛威胁。论文属于机器学习安全研究，适合后门攻击防御研究者、模型鲁棒性评估工程师及使用第三方训练服务的平台安全团队阅读。

💡 推荐理由: 揭示了后门攻击评估中的一个盲区：训练触发器与推理触发器族不匹配时后门仍可泛化，意味着防御者不能仅依赖精确触发器匹配检测，需关注表示层面的后门效应。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peng Wang 0088, Zilong Lin 0001, Xiaojing Liao, XiaoFeng Wang 0001

本文首次系统研究了本地搜索服务上非法毒品商业列表的泛滥问题。研究背景是：不法分子利用上游本地数据代理商对数据质量控制不严的漏洞，在本地搜索服务（如谷歌知识面板、地图搜索、语音搜索）中发布非法毒品推广列表，从而污染下游搜索引擎的知识库，并通过网络、地图和语音搜索覆盖大量受众。该问题此前未被充分认识。研究方法包括大规模数据采集与测量，通过爬取多家主流本地搜索平台的数据，识别非法毒品相关列表，并分析其发布渠道、技术手段和影响范围。主要贡献有：1）首次揭示了本地商业列表生态系统中存在的脆弱性和监管缺失，证明非法毒品推广的普遍性；2）量化了此类活动对本地搜索用户的实际影响，包括搜索关键词的污染程度和用户暴露风险；3）为后续检测和防御提供了实证基础。该研究适合安全研究人员、平台安全团队和数据治理从业者阅读，有助于理解新型地下推广模式并推动生态改进。

💡 推荐理由: 首次揭示本地搜索服务被用于非法毒品推广的规模与手法，暴露了上游数据代理与下游搜索服务之间的安全盲区，为平台治理和监管提供重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bálint Gyevnár, Atoosa Kasirzadeh, Nihar B. Shah

本论文探讨了一种新型的科学欺诈攻击方式——间接数据投毒（Indirect Data Poisoning）。随着人工智能在科学研究中的广泛应用，自主研究代理（autonomous research agents）能够自动检索和处理公开数据集。攻击者通过向开放数据集注入精心篡改的版本，并上传到公共仓库，使得这些代理在不经意间将虚假数据传播给诚实的研究者，从而大规模地工业化科学欺诈。研究者在五个社会敏感主题（如招聘歧视、自动驾驶汽车安全等）上，使用三种前沿AI系统（Claude Code with Claude Opus 4.7、Codex with GPT-5.5、Gemini CLI with Gemini 3.1 Pro）进行了450次符合伦理的实验。结果显示，投毒攻击在49.56%的实验中成功，而检测率仅为6.0%。攻击不需要特定主题的触发词、代理访问、间接提示注入或伪造论文，仅依赖开放数据生态系统和误导性元数据。为缓解攻击，研究者提出了两种措施：科学家角色（scientist persona）和数据来源审计（data provenance audit），后者包括五项检查（参考文献、社交标记、统计异常、相关数据集、投毒警告）。结果表明，科学家角色仍导致16.67%的实验得出被投毒的结论，而数据来源审计将攻击成功率降至零。论文结论指出，间接数据投毒可能以前所未有的规模实现科学欺诈，但通过代理在数据检索过程中的适当审计可以有效缓解。

💡 推荐理由: 本文揭示了一种新型AI安全威胁：通过操控公开数据集，攻击者可远程破坏科学研究的完整性，且检测极为困难。对使用AI辅助研究的机构和个人具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chongkai Li, Bang Zhang, Wenjian Luo

本文研究了联邦学习（FL）中的一种新型攻击：中央化“取走训练数据”（TATD）攻击。传统的TATD攻击利用深度模型的记忆能力存储并恢复训练数据，但在联邦学习环境中，多客户端平均聚合可能会覆盖编码后的数据，使得攻击难以实现。为此，作者提出了FedCVESA方法，这是相关值编码攻击（CVEA）的联邦变体。该方法假设恶意服务器选择n个目标客户端，通过向目标客户端的损失函数添加皮尔逊相关正则化项，将私有训练数据逐步编码到选定的模型参数（称为载体参数）中。为了减少服务器聚合时载体参数被覆盖，作者进一步提出对分散的载体参数进行分段聚合，保留选定的载体参数，同时对其余参数进行标准平均。在MNIST、Fashion-MNIST和CIFAR-10数据集上，基于狄利克雷非独立同分布划分的实验表明，该方法能够在保持可接受主任务效用的前提下，从训练好的模型中窃取语义上可识别的私有训练图像。这些结果证明，在所研究的白盒恶意服务器设置下，联邦学习可以成为主动TATD攻击的参数级记忆通道。

💡 推荐理由: 揭示了联邦学习在面对恶意服务器时，模型参数可能成为泄露训练数据的通道，对隐私保护构成严重威胁，提醒安全从业者关注联邦学习中的主动攻击风险。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Stefan Bühler, Mark Schutera

该论文研究了针对开源机器人视觉语言动作模型（VLA）的数据投毒攻击，特别是触发词（trigger-word）投毒。作者指出，当前开源机器人生态系统在社区贡献的数据集上存在信任假设，而攻击者可以通过注入少量中毒样本就能隐蔽地嵌入后门，使机器人在接收到特定触发词时失效。论文以smolVLA模型为测试对象，在LeRobot平台的真实拾放（pick-and-place）任务上进行实验，设置了三种中毒比例（1/320、3/320、10/320），并评估了不同触发词位置（前置、中置、后置）的影响。实验结果显示：仅需3个中毒片段（episode）即可实现完全拒绝服务（DoS），所有触发词条件下的成功率降至0.0±0.0%，机器人锁定在固定关节配置，不执行任何任务运动；而在正常提示下，模型保持约50%的成功率，表明攻击具有隐蔽性。即使仅1个中毒片段，成功率也降至6.7±6.7%，机器人虽有运动但无法完成任务。攻击还能泛化到中置和后置触发词位置，尽管训练时仅使用前置触发。该研究证明此威胁是实际可行、低成本且隐蔽的，因此需要将数据集来源的可信性视为开源机器人生态中的首要安全问题。

💡 推荐理由: 首次实践验证对开源机器人VLA模型的数据投毒攻击，证明其低成本、高隐蔽性及严重后果（完全拒绝服务），对机器人安全社区具有重要警示意义。

🎯 建议动作: 研究跟进，关注数据集来源验证和投毒检测技术

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zayd Hammoudeh, Daniel Lowd

本文研究训练集攻击（如数据投毒）的目标识别问题。攻击者通过修改部分训练样本，使模型对特定测试样本产生错误预测。现有防御主要检测中毒样本，但难以定位攻击者试图破坏的具体目标。作者提出基于重归一化影响估计（Renormalized Influence Estimation）的方法，通过修正影响函数在中毒数据下的偏差，准确识别攻击目标。核心思路是计算每个训练样本对目标测试样本的贡献，并利用重归一化消除中毒样本间的相互干扰，从而定位最具恶性影响的训练样本。实验在多个数据集和攻击场景下验证，该方法能高效且高精度地识别攻击目标，优于基线方法。该工作首次将影响函数应用于训练集攻击目标识别，为机器学习安全提供了新视角。

💡 推荐理由: 训练集攻击是机器学习安全的核心威胁，识别攻击目标可帮助防御者快速响应、定位受损资产，提升ML系统的可信与可控性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Poojitha Thota, Shirin Nilizadeh

该论文针对在微调阶段对大型语言模型（LLM）进行数据投毒攻击的防御问题展开研究。在抽象文本摘要任务中，微调数据集通常较小，攻击者可通过操纵少量训练样本，使模型生成有偏见或有害的摘要，同时保持标准评估指标正常。论文提出了一种统一的防御框架，可在模型部署后检测并修复微调阶段的数据投毒。在白盒场景下，被投毒的文档-摘要对表现出异常高的训练影响，通过影响函数分析和语义一致性检查可有效检测。在黑盒场景下，被投毒模型对保持语义的扰动表现出2-3倍的敏感性，可实现无需访问训练数据的行为审计。此外，论文还引入了两种新型攻击：事实扭曲攻击和代表性偏见攻击，证明投毒可改变摘要行为而不触发常规警报。实验基于9种架构和6个基准数据集，在自适应攻击下，检测精度达到85-92%，梯度上升遗忘（unlearning）可恢复高达96%的原始行为，且ROUGE指标下降小于0.6%。研究表明，微调阶段投毒会留下持久的结构性痕迹，使得无需完全重新训练即可实现实用检测和部署后恢复。

💡 推荐理由: LLM在微调阶段面临的数据投毒风险极具隐蔽性，传统防御难以兼顾效果和效率。本文首次提出统一的后验防御方案，兼顾检测与恢复，对AI供应链安全具有重要参考价值。

🎯 建议动作: 研究跟进，考虑在内部LLM微调流水线中集成类似检测与修复机制

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yibin Hu, Xiaolin Sun, Zizhan Zheng

本文针对基于模型的学习代理（model-based learning agents）中世界模型（world model）的微调阶段面临的数据投毒攻击问题，提出了SWAAP（Stealthy World Model Manipulation via Data Poisoning），这是首个两阶段数据投毒框架。在第一阶段，SWAAP通过一阶双层优化（first-order bilevel optimization）并利用过渡梯度定理（transition-gradient theorem）识别出一个有害的目标世界模型，该模型在保持与干净模型动态相近的同时，诱导规划（planning）产生低回报行为。在第二阶段，SWAAP通过隐身约束梯度匹配（stealth-constrained gradient matching）实现该目标，仅修改有限比例的微调转变目标（transition targets），使得诱导训练梯度将受害者模型推向对抗目标，同时预测误差正则化器（prediction-error regularizer）鼓励投毒目标保持在世界模型自然近似误差的范围内。为了评估攻击的隐蔽性，作者在投毒管线的三个阶段评估了防御和可检测性：训练前检测投毒转变、微调期间的鲁棒训练、以及测试时监控产生的世界模型。在多种连续控制任务中，SWAAP导致显著的性能退化，同时保持投毒转变与干净数据接近，并逃过了所评估的非自适应残差/CUSUM/TRIM风格的防御。这些结果揭示了世界模型适应管道中的一个实际漏洞，并强调了需要保护世界模型训练数据和学到的动态的鲁棒方法。适合安全研究人员、AI系统防御者以及强化学习从业者阅读。

💡 推荐理由: 该研究揭示了基于模型强化学习中世界模型微调管道的训练时攻击面，攻击者可通过少量数据投毒操纵模型导致低回报行为，且现有防御难以检测，对部署安全关键型自主代理构成威胁。

🎯 建议动作: 研究跟进，评估内部基于模型强化学习系统的数据投毒风险，探索鲁棒微调与异常检测方法。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ethan Rathbun, Ahmed Agha, Saaduddin Mahmud, Christopher Amato, Alina Oprea, Eugene Bagdasarian

该论文研究了世界模型（world models）在机器人学习管道中的安全性问题。世界模型作为一种高效的数据生成和仿真工具，正被越来越多地集成到机器人训练流程中，但本文证明了世界模型引入了一种隐蔽且有效的数据投毒攻击入口。与传统的直接向训练数据注入危险轨迹的方法不同，作者提出的新型攻击向看似安全的远程操作数据中注入恶意提示或过渡动态，这些恶意数据只有在通过世界模型处理时才会激活，从而生成合成危险轨迹，最终导致训练出不安全或被篡改的机器人策略。攻击在动作条件世界模型和文本条件世界模型上均得到验证，包括对下游深度强化学习策略的端到端后门攻击，以及视觉-语言-动作（VLA）场景的概念验证。该研究突显了世界模型在机器人学习供应链中的脆弱性，并呼吁开发更安全的模型以及重新评估其集成方式。适合机器人安全、对抗性机器学习和系统安全领域的研究人员阅读。

💡 推荐理由: 世界模型作为新兴组件，此前未被充分认识其安全风险；本文揭露的新型投毒攻击隐蔽性强、后果严重，直接威胁机器人策略的可靠性与安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Shawn Shan, Arjun Nitin Bhagoji, Haitao Zheng 0001, Ben Y. Zhao

本文提出了一种针对深度神经网络数据投毒攻击的取证溯源工具。在对抗性机器学习领域，新的防御措施常常被更强大的攻击迅速攻破，因此取证工具可以作为现有防御的有益补充，通过追溯成功攻击的根本原因，为未来防范类似攻击提供缓解路径。作者提出了一种新颖的迭代聚类与剪枝解决方案，该方法逐步剔除“无辜”的训练样本，直至剩余样本全部为导致攻击的投毒数据。具体而言，该方法基于训练样本对模型参数的影响进行聚类，然后利用高效的数据遗忘机制剪除无辜簇。作者在计算机视觉和恶意软件分类领域，针对三种脏标签（后门）投毒攻击和三种干净标签投毒攻击进行了实证评估，系统在所有攻击上实现了超过98.4%的精确率和96.8%的召回率。此外，该系统对四种专门设计用于攻击它的反取证措施表现出鲁棒性。该工作为安全从业者提供了一种事后分析工具，可用于定位训练数据中的恶意样本，辅助模型修复和攻击溯源。

💡 推荐理由: 数据投毒攻击是机器学习模型面临的重要威胁，本文提出的取证溯源方法能够有效定位投毒样本，填补了现有防御体系中事后分析的空白，对提升模型供应链安全具有实际价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chamara Sandeepa, Bartlomiej Siniarski, Shen Wang 0006, Madhusanka Liyanage

随着物联网和移动设备中海量数据的快速增长，分布式机器学习技术日益受到关注，联邦学习（FL）作为一种保护隐私的分布式学习框架，允许多方协作训练模型而无需共享原始数据。然而，FL容易受到数据投毒攻击，恶意客户端可能通过操控本地数据或模型更新来破坏全局模型。现有防御方案多基于相似度度量或异常过滤，但缺乏对攻击者意图的深度分析，且无法提供可解释的证据来判定恶意客户端。针对这一问题，本文提出了SHERPA，一种利用Shapley加法解释（SHAP）来识别FL系统中潜在投毒者的鲁棒算法。SHERPA的核心创新在于：首先，通过SHAP值计算每个客户端对全局模型的特征贡献；然后，基于特征归因聚类开发一种新的算法来区分投毒者和正常客户端。在多个数据集上模拟了不同场景的数据投毒攻击（包括针对隐私的投毒攻击），实验表明SHERPA能够有效缓解攻击，同时提供可解释性，为聚合过程中剔除恶意客户端提供合理的依据。该方法不仅提升了防御的可解释性，还增强了对投毒行为判定的合理性。本文的研究展示了可解释人工智能（XAI）技术在联邦学习安全防御中的潜力，为后验特征归因在对抗数据投毒攻击中的应用提供了新的视角。

💡 推荐理由: 联邦学习的安全性是当前AI隐私计算中的关键挑战。SHERPA提供了可解释的鲁棒防御机制，能帮助安全团队理解为何将某客户端标记为恶意，从而提升联邦学习系统的透明度和可信度。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jack Sanderson, Yihan Wang, Xiaoqian Lu, Gautam Kamath, Yiwei Lu

本文研究了大语言模型（LLM）后训练阶段中的顺序数据投毒威胁。LLM后训练通常包括多个阶段，如监督微调（SFT）和基于人类反馈的强化学习（RLHF）或直接偏好优化（DPO），每个阶段的数据来自不同、可能不可信的来源。现有文献假设每个训练阶段可能发生单次数据投毒攻击，但忽略了多个攻击者协同攻击的可能性。为此，本文提出了“顺序数据投毒”威胁模型，其中多个敌手分别污染SFT数据集和偏好数据集。在该模型下，作者发现了“单攻击者错觉”：单独评估每个敌手时，威胁看似微不足道；但当敌手跨阶段协作时，真正的脆弱性暴露无遗。在SFT→DPO管道中，攻击者的贡献是累加性的：将固定投毒预算分散到多个阶段比集中在单一阶段效果更显著。在SFT→PPO管道中，攻击者的贡献是互补的：单独进行SFT投毒或奖励模型投毒均无法成功，但两者结合却能奏效。这些发现表明，对单个后训练阶段的安全性分析会系统性低估仅由阶段间交互产生的复合漏洞。代码已开源。本文适合AI安全研究员、LLM训练流程设计者及防御方关注，以理解多阶段攻击的潜在风险和评估现有防御的不足。

💡 推荐理由: 揭示了LLM后训练中多阶段联合投毒的复合风险，提醒安全从业者孤立评估每个阶段的威胁是不够的。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jiachen Qian

检索增强生成（RAG）通过引入外部知识库来缓解大语言模型的幻觉问题，但同时也引入了语料库完整性的新攻击面。本文提出 SilentRetrieval，一种两阶段数据投毒攻击，能够在不破坏文档流畅性的前提下劫持 RAG 系统。第一阶段使用协调束搜索（Coordinated Beam Search），这是一种结合流畅性-相似性目标的多 token 联合优化方法，使被污染的宿主文档在保持低困惑度的同时仍然可检索。第二阶段使用上下文自适应触发器生成（Context-Adaptive Trigger Generation），利用冻结的 LLM 驱动轻量级触发器融合步骤，将操纵触发器嵌入文档内容。在单毒化文档每查询的评估设置下，使用合成目标答案，SilentRetrieval 在 Natural Questions 和 MS MARCO 数据集上分别实现了 84.6%/81.3% 的 HR@10 和 57.5%/54.8% 的 ASR-LLM，同时保持接近良性文档的困惑度。跨模型评估显示，在固定触发器生成器下对四种目标 LLM 仍有非平凡效果；针对包括 ColBERT 和商业嵌入模型在内的未见检索器的迁移测试，在相同注入语料协议下平均 HR@10 为 64.7%。在采样维基百科规模评估中，以 0.016% 的投毒比例仍保持 74.2% 的 HR@10。结合检索侧和生成侧的防御虽然显著降低了攻击成功率，但引入了延迟权衡。人工评估显示，与不流畅的基线相比，标记率更低，但在当前样本量下仍比良性内容数值上更可疑。该研究揭示了 RAG 系统在面对精心构造的对抗性文档时的脆弱性，并提示需要更鲁棒的防御机制。

💡 推荐理由: RAG 系统被广泛用于减少 LLM 幻觉，但本文展示了一种隐蔽的数据投毒攻击，能够以极低投毒比例劫持检索结果，影响输出安全性。对于构建 RAG 应用的安全团队，该研究揭示了现有防御的不足，需关注语料库完整性保护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zedian Shao, Charles Fleming, Teodora Baluta

大型语言模型（LLM）通常使用未经过滤的文本数据集进行微调，而对手可以污染这些数据集。现有的数据投毒攻击主要依赖于固定的触发短语，这些短语可以被异常检测、干净数据正则化或在线监控等防御手段中和。本文提出了一种新的数据投毒方法，通过共享知识（如事实或概念）与攻击者选择的短语之间的语义关联，使LLM学习一种可靠且隐蔽的信息隐藏方案。这种隐藏方案可以编码和解码任意恶意指令，从而揭示了一种新的、微妙的投毒诱导漏洞：隐蔽控制攻击。作者精确刻画了隐蔽控制攻击的特征，并在5个LLM、3种后门防御和4种提示注入防御上进行了评估。在较小的污染比例下，相比干净的微调模型，隐蔽控制攻击在平均攻击成功率上比基于启发式的提示注入攻击相对提高了约40%。它们还能规避基于检测和微调的防御，在后门防御后保持高达93%的攻击成功率，在提示注入防御后保持高达98%的攻击成功率。这项研究展示了LLM微调过程中一种新型的、难以防御的威胁，对LLM的安全部署提出了严峻挑战。

💡 推荐理由: 该攻击通过语义关联隐藏指令，能绕过现有检测和防御机制，对LLM安全构成新威胁，安全从业者需关注此类隐蔽后门攻击的演变。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Mahshid Rezakhani, Nowfel Mashnoor, Kimia Azar, Hadi Kamali

随着大语言模型（LLM）越来越多地被微调用于硬件任务（如寄存器传输级（RTL）代码生成），高质量数据集的稀缺性常常导致使用快速组装或生成的数据。这些数据集缺乏安全验证，极易受到数据投毒攻击，使得模型生成语法正确但存在安全漏洞的硬件模块，绕过标准功能检查。为此，本文提出SafeTune框架，旨在增强基于LLM的RTL代码生成对投毒攻击的鲁棒性，特别关注硬件木马（HT）插入。SafeTune包含两个核心组件：（1）图神经网络（GNN），通过建模结构属性在微调过程中识别异常电路模式；（2）语义验证模块，利用文本嵌入和XGBoost分类器评估提示词的安全性。通过结合结构知识和语义知识，SafeTune有效过滤投毒输入而不牺牲合法数据。实验结果表明，SafeTune在无需修改底层模型架构的情况下，显著提升了LLM微调的鲁棒性和可靠性。

💡 推荐理由: 硬件安全中RTL生成是新兴方向，数据投毒攻击可导致芯片级别后门，SafeTune提供了实际可用的防御框架。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#data-poisoning

RAGuard: A Layered Defense Framework for Retrieval-Augmented Generation Systems Against Data Poisoning

Lilith: Backdoor Generalization under Training-Inference Trigger Shift

Demystifying Local Business Search Poisoning for Illicit Drug Promotion.

Distributed Denial of Science: How Indirect Data Poisoning of AI Systems Can Industrialize Scientific Fraud

FedCVESA: Taking Away Training Data in Federated Learning via Correlation Value Encoding and Segmented Aggregation

!Imperio, smolVLA: The Implications of Data Poisoning on Open Source Robotics

Identifying a Training-Set Attack's Target Using Renormalized Influence Estimation.

Detect, Unlearn, Restore: Defending Text Summarization Models Against Data Poisoning

Stealthy World Model Manipulation via Data Poisoning

Targeting World Models to Compromise Robot Learning Pipelines

Poison Forensics: Traceback of Data Poisoning Attacks in Neural Networks.

SHERPA: Explainable Robust Algorithms for Privacy-Preserved Federated Learning in Future Networks to Defend Against Data Poisoning Attacks.

Sequential Data Poisoning in LLM Post-Training

SilentRetrieval: Hijacking Retrieval-Augmented Generation via Semantically-Preserving Adversarial Data Poisoning

Cordyceps: Covert Control Attacks on LLMs via Data Poisoning

SafeTune: Mitigating Data Poisoning in LLM Fine-Tuning for RTL Code Generation