#semantics-preserving-rewriting 主题 - Cyber Security Daily Radar

👥 作者: Huanli Gong, Zhipeng Wei, Yu Fu, Haz Sameen Shahgir, Ananya Gupta, Yue Dong, N. Benjamin Erichson

多轮越狱攻击（Multi-turn Jailbreak Attacks）利用辅助评判模型（Judge Model）的反馈信号来迭代优化对抗性提示，逐步突破大语言模型（LLM）的安全防护。现有防御措施主要针对单轮响应或最终输出进行检测与阻断，但未能切断攻击者利用中间交互获取评判信息的闭环，导致攻击者仍能从辅助模型的反馈中提炼出提示改进方向。本文提出 D-Judge——一种语义保持的输出重写防御方法。D-Judge 在受害者 LLM 的响应被攻击者的评判模型评估之前，直接干预该循环，对响应进行重写。重写后的响应在语义上与原始响应等价，但能使评判模型给出不同的有害性分数，从而扭曲攻击者的反馈信号。攻击者的提示优化过程随后会针对一个失真的攻击进度信号进行，使得后续查询偏离有效路径。为提升 D-Judge 生成此类重写的能力，研究者构建了一个包含语义等价但评判分数不同的响应配对数据集，并采用监督微调（Supervised Fine-Tuning）后接直接偏好优化（Direct Preference Optimization）进行训练。在 HarmBench 基准上的实验表明，D-Judge 在保持良性任务性能的同时，显著降低了当前最先进多轮越狱攻击的成功率。该方法主要贡献在于：(1) 提出一种新的防御视角——中断攻击者的反馈闭环而非仅检测有害内容；(2) 设计了语义保持的重写机制以保持可用性；(3) 展示了通过偏好优化训练重写模型的有效性。适合关注 LLM 安全防御、对抗性攻击与防御的研究者和安全工程师阅读。

💡 推荐理由: 多轮越狱攻击是当前 LLM 安全的主要威胁之一，D-Judge 首次提出通过破坏攻击者反馈循环来进行主动防御，极具创新性，且实验证明了其有效性，为安全从业者提供了新的防御思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#semantics-preserving-rewriting

D-Judge: Disrupting Multi-Turn Jailbreaks using Semantics-Preserving Output Rewriting