本文提出一种基于信息论的对抗训练框架WARDEN,用于提升大型语言模型(LLM)对提示注入等对抗攻击的鲁棒性。当前LLM虽经过对齐与安全训练,仍易受新型攻击策略诱导产生有害行为。现有对抗训练方法计算成本高、难以扩展。最近出现的连续对抗训练方法(如CAT、CAPO)通过在嵌入空间利用梯度扰动生成更高效且表达力强的攻击样本。WARDEN在此基础上引入分布鲁棒优化思想,使用f-散度(特别是KL散度)构建一个围绕经验训练分布的模糊集,动态重新加权对抗样本,优化该模糊集内的最坏情况对抗损失。通过凸对偶转化,目标函数简化为对数-求和-指数(log-sum-exp)形式,并包含一个动态参数控制重加权强度。实验在多个LLM和多种攻击设置下进行,结果表明WARDEN在保持模型效用(如生成流畅性、准确性)的同时,显著降低攻击成功率,且计算与效用成本与CAT、CAPO、MixAT等基线方法相当,使其成为可扩展的鲁棒对齐实用方案。该方法特别适用于需要高安全性的LLM部署场景,如聊天机器人、内容生成等。
💡 推荐理由: 该工作针对LLM对抗鲁棒性的核心挑战,提出一种计算高效且通用的训练方法,可直接降低恶意提示引发的安全风险,对安全工程师与研究者有重要参考价值。
🎯 建议动作: 研究跟进