推荐 5.4
Conf: 50%
本文提出了一种针对大型语言模型 (LLM) 的保证性越狱防御方法——Disrupt-and-Rectify Smoothing (DR-Smoothing)。该方法受对抗防御领域中去噪平滑技术的启发,将两阶段提示处理方案(先干扰输入提示,再修正)集成到传统平滑防御框架中。与先前仅干扰的方法相比,本方法通过将分布外(out-of-distribution)的干扰提示恢复为分布内形式,降低了LLM行为不可预测的风险。此外,这种两阶段方案在越狱防御中实现了无害性与有用性之间的有效平衡。作者给出了通用平滑框架的理论分析,提供了防御成功概率的紧界以及对干扰强度的要求。DR-Smoothing能够防御令牌级和提示级的越狱攻击,包括在已建立和自适应攻击场景下。大量实验表明,该方法在无害性和有用性两方面均超越了当前最先进的防御方法。本文适合LLM安全研究人员、AI防御系统开发者以及关注生成模型鲁棒性的从业者阅读。
💡 推荐理由: 该工作为LLM越狱防御提供了理论保证和实用方法,平衡了安全性与可用性,对提升生成式AI系统的可信赖性有重要意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)