#harmful-fine-tuning 主题 - Cyber Security Daily Radar

👥 作者: Guoxin Lu, Letian Sha, Qing Wang, Peijie Sun, Hao Zhou, Hua Dai, Fu Xiao

本文聚焦于大型语言模型（LLM）安全对齐在面对有害微调（Harmful Fine-tuning, HFT）攻击时的脆弱性问题。研究表明，现有的防御方法（如对参数、梯度或内部表示施加约束）在持续性HFT攻击下容易被绕过，其根本原因在于高维参数空间固有的冗余性：攻击者能够利用与防御约束正交的优化轨迹，在表面上遵循安全限制的同时，暗中恢复有害能力。为解决这一缺陷，作者提出了一种名为安全瓶颈正则化（Safety Bottleneck Regularization, SBR）的新方法。SBR将防御重心从冗余的参数空间转移到模型的解嵌入层（unembedding layer），该层被视为几何瓶颈。通过对齐有害查询的最终隐藏状态与安全对齐模型的最终隐藏状态——即仅使用一个“安全锚点”（safety anchor）——SBR使得模型即使在持续HFT攻击下仍能维持安全响应。大量实验表明，SBR在仅使用单个安全锚点的条件下，即可将有害分数（Harmful Score）降至10以下，同时在良性下游任务上保持具有竞争力的性能。该方法为LLM安全对齐提供了新的几何视角，显著增强了模型对有害微调的鲁棒性。

💡 推荐理由: LLM的安全对齐是部署前的关键步骤，但有害微调攻击可轻易破坏安全性。本文揭示现有防御失效的根本原因，并提出SBR这一轻量级、有效的防御方法，为安全工程师提供了可直接评估的加固方案。

🎯 建议动作: 研究跟进：在内部LLM安全评估中复现并验证SBR的有效性，考虑将其纳入微调流程的防御组件。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#harmful-fine-tuning

Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks