本文提出了一种名为Greedy Coordinate Diffusion (GCD)的新型对抗攻击框架,用于攻击经过安全对齐的大型语言模型(LLM)。现有攻击方法存在两类问题:基于优化的攻击(如GCG)生成高困惑度、不连贯的后缀,容易被基于困惑度或防护模型的过滤器检测;而保持语义连贯的攻击往往改变查询的语义意图,导致模型响应偏离攻击者的原始目标。GCD利用离散扩散语言模型的生成先验来引导对抗后缀的搜索,在保持低困惑度和高语义一致性的同时实现高效攻击。该方法无需直接梯度访问,可在灰盒设置下运行。实验表明,GCD在攻击成功率(ASR)上达到最高,同时在响应质量得分上具有竞争力,且构造的对抗提示被基于困惑度和防护模型的过滤器检测到的比率低于其他方法。该工作揭示了安全对齐LLM面临的语义连贯对抗攻击风险,为防御研究提供了新的评估基准。
💡 推荐理由: 该工作展示了现有对抗攻击的检测机制可能被更隐蔽的攻击绕过,强调了需要开发对低困惑度、语义连贯攻击更鲁棒的防御手段。
🎯 建议动作: 研究跟进,评估内部LLM部署对此类攻击的脆弱性,并探索针对性防御。