推荐 5.5
Conf: 50%
大型语言模型(LLM)越来越多地用于代码生成,但可能被滥用以产生恶意代码。语法约束解码(GCD)是一种旨在通过强制语法有效性来提高LLM生成代码可靠性的技术。本文揭示了一个反直觉的风险:这种面向可靠性的技术本身可能成为攻击面。作者提出了一种名为CodeSpear的新型越狱攻击,通过利用GCD诱导LLM生成恶意代码。实验表明,仅应用良性的代码语法约束就能有效越狱LLM。为了应对这一漏洞,作者提出了CodeShield,这是一种安全对齐方法,即使在攻击者控制的语法约束下也能稳健地保持安全行为。CodeShield通过在代码模态中对模型进行对齐,教它在GCD下生成蜜罐代码。这类代码在语义上是无害的(不实现恶意请求),并且结构多样,难以通过语法收紧来抑制。同时,当自然语言可用时,CodeShield仍保留自然语言的拒绝响应。在4个基准测试的10个流行LLM上的实验表明,CodeSpear优于代表性的越狱基线,平均攻击成功率提高超过30个百分点。CodeShield在CodeSpear下恢复了安全性,同时保持了良性效用。这些发现揭示了GCD的基本风险,并呼吁更多关注其潜在的安全影响。
💡 推荐理由: 本文揭示了语法约束解码(GCD)这一被广泛采用的可靠性技术可能被攻击者利用成为越狱LLM的新攻击面,颠覆了安全从业者对GCD安全性的认知,具有重要的安全警示意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)