#grammar-constrained-decoding 主题 - Cyber Security Daily Radar

👥 作者: Yitong Zhang, Shiteng Lu, Jia Li

大型语言模型（LLM）越来越多地用于代码生成，但可能被滥用以产生恶意代码。语法约束解码（GCD）是一种旨在通过强制语法有效性来提高LLM生成代码可靠性的技术。本文揭示了一个反直觉的风险：这种面向可靠性的技术本身可能成为攻击面。作者提出了一种名为CodeSpear的新型越狱攻击，通过利用GCD诱导LLM生成恶意代码。实验表明，仅应用良性的代码语法约束就能有效越狱LLM。为了应对这一漏洞，作者提出了CodeShield，这是一种安全对齐方法，即使在攻击者控制的语法约束下也能稳健地保持安全行为。CodeShield通过在代码模态中对模型进行对齐，教它在GCD下生成蜜罐代码。这类代码在语义上是无害的（不实现恶意请求），并且结构多样，难以通过语法收紧来抑制。同时，当自然语言可用时，CodeShield仍保留自然语言的拒绝响应。在4个基准测试的10个流行LLM上的实验表明，CodeSpear优于代表性的越狱基线，平均攻击成功率提高超过30个百分点。CodeShield在CodeSpear下恢复了安全性，同时保持了良性效用。这些发现揭示了GCD的基本风险，并呼吁更多关注其潜在的安全影响。

💡 推荐理由: 本文揭示了语法约束解码（GCD）这一被广泛采用的可靠性技术可能被攻击者利用成为越狱LLM的新攻击面，颠覆了安全从业者对GCD安全性的认知，具有重要的安全警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#grammar-constrained-decoding

Grammar-Constrained Decoding Can Jailbreak LLMs into Generating Malicious Code