推荐 5.5
Conf: 50%
本文提出一种名为Poison-with-Style (PwS)的实用且隐蔽的模型投毒攻击,针对代码大语言模型(CLLM)。与以往假设攻击者能够在推理时主动将显式触发器(如特定单词)嵌入开发者提示中的攻击不同,PwS利用开发者的代码风格作为隐式触发器,这些触发器自然地蕴含在提示中。PwS引入了一种新颖的数据收集方法和两步训练策略来微调CLLM,使得模型在遇到包含特定代码风格的提示时生成含漏洞的代码,而在其他提示下保持正常行为。在Python代码补全任务上的实验表明,PwS能够抵御最先进的防御措施,并在多种漏洞类型上实现高攻击成功率,同时保持标准代码补全基准(如HumanEval和MBPP)上的良好性能。例如,当使用触发代码风格时,PwS投毒的模型在95%的情况下生成CWE-20漏洞代码,而在HumanEval和MBPP上的pass@1性能下降不到5%。该研究表明,代码风格这种看似无害的特征可被用作隐蔽的后门触发器,对基于CLLM的代码代理构成严重威胁,并凸显了需要更细粒度的防御策略来检测此类隐式触发器的必要性。
💡 推荐理由: 该攻击利用开发者自然的代码风格作为隐蔽触发器,极具实用性和隐蔽性,能绕过现有防御,威胁基于代码大模型的智能代理安全。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)