#knowledge-editing

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen

大型语言模型(LLM)越来越依赖知识编辑来支持知识密集型推理,但这种灵活性也引入了关键的安全风险:攻击者可以注入恶意或误导性知识,破坏下游推理并导致有害结果。现有的知识编辑基准主要关注编辑效果,缺乏一个统一的框架来系统评估编辑知识对推理行为的安全性影响。为了解决这一缺口,本文提出了EditRisk-Bench,一个用于系统评估恶意知识编辑下知识密集型推理安全风险的基准。与先前强调编辑成功、泛化和局部性的基准不同,EditRisk-Bench专注于注入的知识如何影响下游推理行为和可靠性。它集成了多种恶意场景,包括错误信息、偏见和安全违规,以及多级知识密集型推理任务和代表性编辑策略,在一个统一的评估框架内衡量攻击效果、推理正确性和副作用。在开源和闭源LLM上的大量实验表明,恶意知识编辑可以可靠地诱导不正确或不安全的推理,同时大体上保留通用能力,使得此类风险难以检测。研究还识别了影响这些风险的关键因素,包括编辑规模、知识特征和推理复杂性。EditRisk-Bench为理解和缓解LLM知识编辑中的安全风险提供了一个可扩展的测试平台。

💡 推荐理由: 知识编辑正被用于提升LLM的准确性,但其安全性未被充分评估。本文揭示了恶意编辑可隐蔽地操控推理输出,对依赖LLM的安全关键应用构成威胁,并提供了首个系统性评估基准。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)