#abliteration 主题 - Cyber Security Daily Radar

👥 作者: Cristina Carleo, Pietro Liguori, Naghmeh Ivaki, Domenico Cotroneo

本文研究了一种名为“abliteration”的低秩权重编辑方法，用于解除代码大语言模型（LLM）在生成指定漏洞代码时的安全对齐拒绝行为。在基于学习的安全漏洞检测任务中，大规模有标注漏洞代码数据集的构建一直面临标签噪声问题，现有的LLM增强方法往往只是变换已有的漏洞种子，而非根据规范合成漏洞，导致标注不准确。因此，作者提出从安全代码出发，利用指令调优的LLM注入特定CWE（如CWE-89 SQL注入），但安全对齐的代码LLM通常会拒绝此类请求。Abliteration方法通过对模型残差流中的拒绝方向进行正交投影，实现在不显著影响代码生成能力的前提下消除拒绝行为。实验以Python和CWE-89为案例，评估了Qwen2.5-Coder-Instruct系列（3B、7B、14B参数）在PromSec和SafeCoder两个安全代码数据集上的表现，每种条件重复三次。结果显示：（i）拒绝行为与模型大小和提示上下文高度相关：14B模型拒绝100%的注入提示，7B在PromSec上拒绝73%但在SafeCoder上仅拒绝5%，而3B几乎从不拒绝；（ii）Abliteration将拒绝率降至零或接近零，同时保持语法有效性超过93%，表明在该设置下拒绝可以与代码生成能力分离；（iii）注入后的漏洞注入率受限于模型能力：14B达到88-97%，7B达到89-90%，3B仅25-48%，从而区分了“意愿”（通过abliteration实现）与“能力”（随参数规模增长）。漏洞判定通过CodeQL、Semgrep、Bandit三个工具的集成检测器以及两位作者对检测器阳性结果的人工裁决完成。本研究属于初步可行性探索，作者认为abliteration有望为漏洞数据集的规模化构建提供新途径，但同时也警示了潜在的安全风险。

💡 推荐理由: 该方法可能为安全社区提供一种高效生成带标签漏洞代码的途径，从而提升基于学习的漏洞检测器的训练数据质量；但同时可能被恶意利用来生成攻击样本，需要关注其双面性。

🎯 建议动作: 研究跟进：评估该方法在更多CWE类型和编程语言上的有效性，并探索检测或防御此类注入生成的策略。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#abliteration

Willing but Unable: Separating Refusal from Capability in Code LLMs via Abliteration