#flipguard

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Aoying Zheng, Anqi Du, Zizhuang Deng, Yuxuan Chen

随着大语言模型(LLM)在实际应用中的广泛部署,模型量化技术因其能够显著降低模型大小和推理延迟而被广泛采用。然而,量化过程引入了一种新型安全威胁:量化条件后门(QCB)攻击。在这种攻击中,攻击者可以精心构造后门触发器,使得后门行为在完整精度模型中保持休眠状态,仅在模型经过特定量化失真后被激活,从而绕过传统的安全审计。针对这一威胁,本文提出了 FlipGuard,一种主动防御框架。该框架通过在量化前对模型权重进行选择性扰动,破坏攻击者在权重模式与量化边界之间的精确对齐,从而抑制后门激活。FlipGuard 不需要访问训练数据或触发器样本,因此具有较高的实用性。为了全面评估防御效果,作者提出了防御有效性比(DER)这一统一度量指标,综合衡量安全提升、模型效用保持和计算开销。在包括 StarCoder 和 LLaMA 系列在内的七个 LLM 上,针对 INT8、FP4、NF4 三种量化方案,在三种攻击场景(易受攻击代码生成、内容注入、过度拒绝)下的实验表明,FlipGuard 能够有效中和 QCB 攻击,在保持较高安全性的同时,几乎不造成性能下降。该工作为 LLM 量化部署提供了重要的安全防御思路。

💡 推荐理由: 该研究揭示了量化过程引入的隐蔽后门威胁,并提出无需训练数据的实用防御框架,对保障大模型实际部署安全性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)