该论文针对大型语言模型(LLM)面对越狱提示(jailbreak prompts)时的安全对齐问题展开研究。现有安全引导(safety steering)方法在测试时通过激活干预将越狱激活引导至拒绝区域,同时保持良性功能,但这些方法本质上是监督式的,且依赖于静态的有限训练集。当出现训练集中未见过的新型越狱攻击时,由于激活分布偏移(out-of-distribution),这些方法往往失效。为解决对未见越狱攻击的防御失败问题,论文提出了一种基于无监督潜在方向发现的双层对抗训练框架(Bi-level Adversarial Training),用于零样本越狱防御。在内部步骤中,通过无监督潜在方向发现,从拒绝态有害请求激活(refusal-state harmful-request activations)中外推(extrapolate)模拟多种多样的越狱激活,从而扩展对真实越狱激活子空间的覆盖范围。在外部步骤中,训练一个势诱导引导场(potential-induced steering field),将这些对抗性越狱状态推回拒绝区域,同时保持良性请求的激活不变。在三个不同规模的LLM和六个经典越狱攻击家族上评估,该方法在大多数情况下将攻击成功率(ASR)降至5%以下。训练过程中子空间覆盖率的不断提升解释了泛化能力增强的原因。该工作为LLM安全对齐提供了新的防御思路,尤其适用于应对动态演化的未知越狱攻击。
💡 推荐理由: 当前LLM安全防御多针对已知攻击,面对未知变种效果不佳。本文提出的无监督模拟加对抗训练方法能零样本泛化,显著提升对未见越狱攻击的鲁棒性,为实际部署LLM提供更可靠的安全保障。
🎯 建议动作: 研究跟进