#knowledge-editing

共收录 2 条相关安全情报。

👥 作者: Advik Raj Basani, Anshuman Chhabra

本文研究了大型语言模型（LLM）中知识编辑（Knowledge Editing, KE）方法的可靠性与潜在安全漏洞。KE 旨在无需昂贵重训练即可更新模型中的特定事实，但最新研究发现其效果存在严重局限性。作者从对抗性诱发（adversarial elicitation）的视角出发，通过精心设计的间接提示（indirect prompting）和对抗性攻击，系统性地测试了多种主流 KE 方法（如模型编辑、定位编辑等）在多种模型架构（如 GPT、LLaMA 等）上的表现。实验表明，编辑后的知识并未被真正擦除，而是隐藏在模型内部，仍能通过特定触发条件重新浮现。机制分析揭示，这些 KE 方法本质上不是覆盖原有知识，而是将其重新分布在模型的表示空间中，仅起到针对性抑制（targeted suppression）的作用，即降低输出原始事实的概率，但并未从模型中消除。此外，损失景观分析显示，编辑后的知识位于狭窄的各向异性区域（narrow anisotropic regions），对扰动高度敏感，因此极易被间接提示或对抗攻击所绕过。本文的研究证明了现有 KE 算法具有内在的可绕过性，并呼吁重新评估在 LLM 应用中部署事后更新的整体思路。该工作对 LLM 部署的安全性、隐私保护以及对抗鲁棒性具有重要启示。

💡 推荐理由: 揭示了 LLM 知识编辑的安全幻觉：编辑后的敏感或错误信息仍可通过对抗性提示提取，对模型安全审计和内容控制带来挑战。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen

大型语言模型（LLM）越来越依赖知识编辑来支持知识密集型推理，但这种灵活性也引入了关键的安全风险：攻击者可以注入恶意或误导性知识，破坏下游推理并导致有害结果。现有的知识编辑基准主要关注编辑效果，缺乏一个统一的框架来系统评估编辑知识对推理行为的安全性影响。为了解决这一缺口，本文提出了EditRisk-Bench，一个用于系统评估恶意知识编辑下知识密集型推理安全风险的基准。与先前强调编辑成功、泛化和局部性的基准不同，EditRisk-Bench专注于注入的知识如何影响下游推理行为和可靠性。它集成了多种恶意场景，包括错误信息、偏见和安全违规，以及多级知识密集型推理任务和代表性编辑策略，在一个统一的评估框架内衡量攻击效果、推理正确性和副作用。在开源和闭源LLM上的大量实验表明，恶意知识编辑可以可靠地诱导不正确或不安全的推理，同时大体上保留通用能力，使得此类风险难以检测。研究还识别了影响这些风险的关键因素，包括编辑规模、知识特征和推理复杂性。EditRisk-Bench为理解和缓解LLM知识编辑中的安全风险提供了一个可扩展的测试平台。

💡 推荐理由: 知识编辑正被用于提升LLM的准确性，但其安全性未被充分评估。本文揭示了恶意编辑可隐蔽地操控推理输出，对依赖LLM的安全关键应用构成威胁，并提供了首个系统性评估基准。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#knowledge-editing

Exposing the Illusion of Erasure in Knowledge Editing for LLMs

Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing