#data-poisoning

共收录 7 条相关安全情报。

← 返回所有主题
推荐 5.5
Conf: 50%
👥 作者: Ethan Rathbun, Ahmed Agha, Saaduddin Mahmud, Christopher Amato, Alina Oprea, Eugene Bagdasarian

该论文研究了世界模型(world models)在机器人学习管道中的安全性问题。世界模型作为一种高效的数据生成和仿真工具,正被越来越多地集成到机器人训练流程中,但本文证明了世界模型引入了一种隐蔽且有效的数据投毒攻击入口。与传统的直接向训练数据注入危险轨迹的方法不同,作者提出的新型攻击向看似安全的远程操作数据中注入恶意提示或过渡动态,这些恶意数据只有在通过世界模型处理时才会激活,从而生成合成危险轨迹,最终导致训练出不安全或被篡改的机器人策略。攻击在动作条件世界模型和文本条件世界模型上均得到验证,包括对下游深度强化学习策略的端到端后门攻击,以及视觉-语言-动作(VLA)场景的概念验证。该研究突显了世界模型在机器人学习供应链中的脆弱性,并呼吁开发更安全的模型以及重新评估其集成方式。适合机器人安全、对抗性机器学习和系统安全领域的研究人员阅读。

💡 推荐理由: 世界模型作为新兴组件,此前未被充分认识其安全风险;本文揭露的新型投毒攻击隐蔽性强、后果严重,直接威胁机器人策略的可靠性与安全性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Shawn Shan, Arjun Nitin Bhagoji, Haitao Zheng 0001, Ben Y. Zhao

本文提出了一种针对深度神经网络数据投毒攻击的取证溯源工具。在对抗性机器学习领域,新的防御措施常常被更强大的攻击迅速攻破,因此取证工具可以作为现有防御的有益补充,通过追溯成功攻击的根本原因,为未来防范类似攻击提供缓解路径。作者提出了一种新颖的迭代聚类与剪枝解决方案,该方法逐步剔除“无辜”的训练样本,直至剩余样本全部为导致攻击的投毒数据。具体而言,该方法基于训练样本对模型参数的影响进行聚类,然后利用高效的数据遗忘机制剪除无辜簇。作者在计算机视觉和恶意软件分类领域,针对三种脏标签(后门)投毒攻击和三种干净标签投毒攻击进行了实证评估,系统在所有攻击上实现了超过98.4%的精确率和96.8%的召回率。此外,该系统对四种专门设计用于攻击它的反取证措施表现出鲁棒性。该工作为安全从业者提供了一种事后分析工具,可用于定位训练数据中的恶意样本,辅助模型修复和攻击溯源。

💡 推荐理由: 数据投毒攻击是机器学习模型面临的重要威胁,本文提出的取证溯源方法能够有效定位投毒样本,填补了现有防御体系中事后分析的空白,对提升模型供应链安全具有实际价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chamara Sandeepa, Bartlomiej Siniarski, Shen Wang 0006, Madhusanka Liyanage

随着物联网和移动设备中海量数据的快速增长,分布式机器学习技术日益受到关注,联邦学习(FL)作为一种保护隐私的分布式学习框架,允许多方协作训练模型而无需共享原始数据。然而,FL容易受到数据投毒攻击,恶意客户端可能通过操控本地数据或模型更新来破坏全局模型。现有防御方案多基于相似度度量或异常过滤,但缺乏对攻击者意图的深度分析,且无法提供可解释的证据来判定恶意客户端。针对这一问题,本文提出了SHERPA,一种利用Shapley加法解释(SHAP)来识别FL系统中潜在投毒者的鲁棒算法。SHERPA的核心创新在于:首先,通过SHAP值计算每个客户端对全局模型的特征贡献;然后,基于特征归因聚类开发一种新的算法来区分投毒者和正常客户端。在多个数据集上模拟了不同场景的数据投毒攻击(包括针对隐私的投毒攻击),实验表明SHERPA能够有效缓解攻击,同时提供可解释性,为聚合过程中剔除恶意客户端提供合理的依据。该方法不仅提升了防御的可解释性,还增强了对投毒行为判定的合理性。本文的研究展示了可解释人工智能(XAI)技术在联邦学习安全防御中的潜力,为后验特征归因在对抗数据投毒攻击中的应用提供了新的视角。

💡 推荐理由: 联邦学习的安全性是当前AI隐私计算中的关键挑战。SHERPA提供了可解释的鲁棒防御机制,能帮助安全团队理解为何将某客户端标记为恶意,从而提升联邦学习系统的透明度和可信度。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 5.6
Conf: 50%
👥 作者: Jack Sanderson, Yihan Wang, Xiaoqian Lu, Gautam Kamath, Yiwei Lu

本文研究了大语言模型(LLM)后训练阶段中的顺序数据投毒威胁。LLM后训练通常包括多个阶段,如监督微调(SFT)和基于人类反馈的强化学习(RLHF)或直接偏好优化(DPO),每个阶段的数据来自不同、可能不可信的来源。现有文献假设每个训练阶段可能发生单次数据投毒攻击,但忽略了多个攻击者协同攻击的可能性。为此,本文提出了“顺序数据投毒”威胁模型,其中多个敌手分别污染SFT数据集和偏好数据集。在该模型下,作者发现了“单攻击者错觉”:单独评估每个敌手时,威胁看似微不足道;但当敌手跨阶段协作时,真正的脆弱性暴露无遗。在SFT→DPO管道中,攻击者的贡献是累加性的:将固定投毒预算分散到多个阶段比集中在单一阶段效果更显著。在SFT→PPO管道中,攻击者的贡献是互补的:单独进行SFT投毒或奖励模型投毒均无法成功,但两者结合却能奏效。这些发现表明,对单个后训练阶段的安全性分析会系统性低估仅由阶段间交互产生的复合漏洞。代码已开源。本文适合AI安全研究员、LLM训练流程设计者及防御方关注,以理解多阶段攻击的潜在风险和评估现有防御的不足。

💡 推荐理由: 揭示了LLM后训练中多阶段联合投毒的复合风险,提醒安全从业者孤立评估每个阶段的威胁是不够的。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Jiachen Qian

检索增强生成(RAG)通过引入外部知识库来缓解大语言模型的幻觉问题,但同时也引入了语料库完整性的新攻击面。本文提出 SilentRetrieval,一种两阶段数据投毒攻击,能够在不破坏文档流畅性的前提下劫持 RAG 系统。第一阶段使用协调束搜索(Coordinated Beam Search),这是一种结合流畅性-相似性目标的多 token 联合优化方法,使被污染的宿主文档在保持低困惑度的同时仍然可检索。第二阶段使用上下文自适应触发器生成(Context-Adaptive Trigger Generation),利用冻结的 LLM 驱动轻量级触发器融合步骤,将操纵触发器嵌入文档内容。在单毒化文档每查询的评估设置下,使用合成目标答案,SilentRetrieval 在 Natural Questions 和 MS MARCO 数据集上分别实现了 84.6%/81.3% 的 HR@10 和 57.5%/54.8% 的 ASR-LLM,同时保持接近良性文档的困惑度。跨模型评估显示,在固定触发器生成器下对四种目标 LLM 仍有非平凡效果;针对包括 ColBERT 和商业嵌入模型在内的未见检索器的迁移测试,在相同注入语料协议下平均 HR@10 为 64.7%。在采样维基百科规模评估中,以 0.016% 的投毒比例仍保持 74.2% 的 HR@10。结合检索侧和生成侧的防御虽然显著降低了攻击成功率,但引入了延迟权衡。人工评估显示,与不流畅的基线相比,标记率更低,但在当前样本量下仍比良性内容数值上更可疑。该研究揭示了 RAG 系统在面对精心构造的对抗性文档时的脆弱性,并提示需要更鲁棒的防御机制。

💡 推荐理由: RAG 系统被广泛用于减少 LLM 幻觉,但本文展示了一种隐蔽的数据投毒攻击,能够以极低投毒比例劫持检索结果,影响输出安全性。对于构建 RAG 应用的安全团队,该研究揭示了现有防御的不足,需关注语料库完整性保护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 10.6
Conf: 50%
👥 作者: Zedian Shao, Charles Fleming, Teodora Baluta

大型语言模型(LLM)通常使用未经过滤的文本数据集进行微调,而对手可以污染这些数据集。现有的数据投毒攻击主要依赖于固定的触发短语,这些短语可以被异常检测、干净数据正则化或在线监控等防御手段中和。本文提出了一种新的数据投毒方法,通过共享知识(如事实或概念)与攻击者选择的短语之间的语义关联,使LLM学习一种可靠且隐蔽的信息隐藏方案。这种隐藏方案可以编码和解码任意恶意指令,从而揭示了一种新的、微妙的投毒诱导漏洞:隐蔽控制攻击。作者精确刻画了隐蔽控制攻击的特征,并在5个LLM、3种后门防御和4种提示注入防御上进行了评估。在较小的污染比例下,相比干净的微调模型,隐蔽控制攻击在平均攻击成功率上比基于启发式的提示注入攻击相对提高了约40%。它们还能规避基于检测和微调的防御,在后门防御后保持高达93%的攻击成功率,在提示注入防御后保持高达98%的攻击成功率。这项研究展示了LLM微调过程中一种新型的、难以防御的威胁,对LLM的安全部署提出了严峻挑战。

💡 推荐理由: 该攻击通过语义关联隐藏指令,能绕过现有检测和防御机制,对LLM安全构成新威胁,安全从业者需关注此类隐蔽后门攻击的演变。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Mahshid Rezakhani, Nowfel Mashnoor, Kimia Azar, Hadi Kamali

随着大语言模型(LLM)越来越多地被微调用于硬件任务(如寄存器传输级(RTL)代码生成),高质量数据集的稀缺性常常导致使用快速组装或生成的数据。这些数据集缺乏安全验证,极易受到数据投毒攻击,使得模型生成语法正确但存在安全漏洞的硬件模块,绕过标准功能检查。为此,本文提出SafeTune框架,旨在增强基于LLM的RTL代码生成对投毒攻击的鲁棒性,特别关注硬件木马(HT)插入。SafeTune包含两个核心组件:(1)图神经网络(GNN),通过建模结构属性在微调过程中识别异常电路模式;(2)语义验证模块,利用文本嵌入和XGBoost分类器评估提示词的安全性。通过结合结构知识和语义知识,SafeTune有效过滤投毒输入而不牺牲合法数据。实验结果表明,SafeTune在无需修改底层模型架构的情况下,显著提升了LLM微调的鲁棒性和可靠性。

💡 推荐理由: 硬件安全中RTL生成是新兴方向,数据投毒攻击可导致芯片级别后门,SafeTune提供了实际可用的防御框架。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)