本文针对代码语言模型(CodeLMs)中的自然后门漏洞进行了深入的实证研究。自然后门是指模型在正常训练过程中无意习得的后门行为,与通过数据投毒注入的后门不同,其产生机制与模型内部表征有关。研究覆盖了多种模型架构(如GPT、BERT变体)和代码智能任务(如代码补全、缺陷检测、代码翻译),在44个场景下系统性地评估了自然后门的存在性,结果表明自然后门在CodeLMs中普遍且固有。作者从模型层面和参数层面揭示了自然后门与注入后门的差异:前者往往与更多参数相关且分布更散。进一步分析了自然后门在数据集、模型架构和共享知识上的可迁移性,发现它们能在不同任务间迁移。成因分析从训练数据(如数据中的隐性偏差)和训练过程(如过拟合)两方面展开。评估了现有防御技术(包括预训练、训练中、训练后防御)对自然后门的缓解效果,发现多数防御效果有限。最后提出了ScanNBT检测方法,通过特征分析和异常模式识别来增强对自然后门的检测能力。该研究有助于理解CodeLMs的安全隐患,为开发更安全的代码模型提供指导。适合安全研究人员、AI安全工程师、代码智能开发者阅读。
💡 推荐理由: 自然后门可能潜伏在正常训练的代码模型中,影响代码生成、漏洞检测等关键任务的安全性与可靠性,现有防御手段难以有效清除,对依赖CodeLMs的软件供应链构成潜在威胁。
🎯 建议动作: 研究跟进