#poisoning

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Peiru Yang, Haoran Zheng, Tong Ju, Shiting Wang, Wanchun Ni, Jiajun Liu, Shangguang Wang, Yongfeng Huang, Tao Qi

本文研究了多模态检索增强生成(RAG)系统在医疗应用中的安全性,重点关注知识投毒攻击。现有攻击大多假设攻击者掌握用户查询的先验知识,这在真实场景中难以实现。为此,作者提出了M³Att攻击框架,仅需了解数据库的有限分布知识。核心思路是:向文本数据中注入隐蔽的虚假信息,同时利用配对的视觉数据作为与查询无关的触发器,以操纵检索概率。攻击者通过向视觉输入施加不可察觉的扰动来改变检索结果,并利用医疗诊断的固有模糊性设计隐蔽错误信息注入策略,使模型生成临床看似合理但错误的诊断,同时规避大语言模型(LLM)的自我纠正。在五个LLM和数据集上的实验表明,M³Att能持续产生合理但错误的输出。该研究揭示了医疗多模态RAG系统的脆弱性,为防御机制设计提供了参考。

💡 推荐理由: 医疗RAG系统依赖外部知识库,若被投毒可能导致错误诊断,威胁患者安全。本攻击不依赖用户查询先验,更贴近真实威胁,值得安全从业者关注。

🎯 建议动作: 研究跟进,评估内部医疗RAG系统对此类攻击的脆弱性,并探索输入过滤、异常检测等防御机制。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 5.5
Conf: 50%
👥 作者: Huiyu Xu, Zhibo Wang, Wenhui Zhang, Ziqi Zhu, Yaopeng Wang, Kui Ren, Chun Chen

本文针对现代 LLM 代理在执行复杂任务时采用的迭代执行循环机制,提出了一种新型攻击——终止毒化(Termination Poisoning)。在这种循环中,代理反复进行推理、行动和自我评估,以判断任务是否完成。攻击者通过向代理的上下文注入恶意提示,扭曲其终止判断,使其误以为任务尚未完成,从而导致无限制的计算资源消耗,类似于拒绝服务攻击。作者系统定义了该威胁,并设计了 10 种具有代表性的攻击策略。通过对 8 个不同的 LLM 代理和 60 个任务的实证研究,发现不同代理在执行循环中表现出独特的行为特征,这些特征可预测哪些攻击策略有效。基于这些发现,作者提出了 LoopTrap,一个自动化的红队框架,它通过轻量探测构建目标代理的行为画像(沿四个脆弱性维度),然后自适应合成恶意提示:选择最有效的策略并通过自评分机制优化注入时机。成功攻击被抽象为可复用的技能库,失败尝试则通过自我反思进行改进。实验表明,LoopTrap 在 8 个主流代理上实现了平均 3.57 倍的步骤放大,峰值达到 25 倍。这篇论文揭示了 LLM 代理安全中的一个重要盲点,并为自动化红队测试提供了新工具。

💡 推荐理由: LLM 代理的自主循环决策机制是新兴攻击面,本攻击利用代理自身逻辑导致资源耗尽,且可自动化,对依赖代理的自动化服务构成可用性威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Wenwei Zhao, Xiaowen Li, Yao Liu, Zhuo Lu

联邦学习(FL)易受到投毒攻击,恶意客户端会上传篡改的模型更新以降低全局模型的性能。现有的检测方法虽能识别并移除恶意客户端,但模型已受污染,仍需恢复。从头再训练虽然有效但成本高昂,而现有的遗忘方法在效果和效率上均不理想。本文提出联邦对抗遗忘(FAUN),一种轻量级框架,仅保留恶意客户端最近一小段更新历史,并利用代理数据集进行对抗优化,生成能消除恶意方向的更新。通过少量遗忘轮次应用这些更新,随后进行良性微调,即可快速移除恶意影响并稳定恢复。在三个经典数据集上的实验表明,FAUN 能达到与再训练相当的恢复效果,且所需轮次大幅减少,攻击成功率降至接近零,证明了 FAUN 成功消除了被遗忘客户端的贡献。

💡 推荐理由: 联邦学习中毒攻击的模型恢复是一个关键但资源密集的问题。FAUN 提供了一种高效、低成本的替代方案,可快速清除恶意影响,对保障 FL 系统安全具有重要实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)