#code-style 主题 - Cyber Security Daily Radar

👥 作者: Khang Tran, Yazan Boshmaf, Issa Khalil, NhatHai Phan, Ting Yu, Md Rizwan Parvez

本文提出一种名为Poison-with-Style (PwS)的实用且隐蔽的模型投毒攻击，针对代码大语言模型（CLLM）。与以往假设攻击者能够在推理时主动将显式触发器（如特定单词）嵌入开发者提示中的攻击不同，PwS利用开发者的代码风格作为隐式触发器，这些触发器自然地蕴含在提示中。PwS引入了一种新颖的数据收集方法和两步训练策略来微调CLLM，使得模型在遇到包含特定代码风格的提示时生成含漏洞的代码，而在其他提示下保持正常行为。在Python代码补全任务上的实验表明，PwS能够抵御最先进的防御措施，并在多种漏洞类型上实现高攻击成功率，同时保持标准代码补全基准（如HumanEval和MBPP）上的良好性能。例如，当使用触发代码风格时，PwS投毒的模型在95%的情况下生成CWE-20漏洞代码，而在HumanEval和MBPP上的pass@1性能下降不到5%。该研究表明，代码风格这种看似无害的特征可被用作隐蔽的后门触发器，对基于CLLM的代码代理构成严重威胁，并凸显了需要更细粒度的防御策略来检测此类隐式触发器的必要性。

💡 推荐理由: 该攻击利用开发者自然的代码风格作为隐蔽触发器，极具实用性和隐蔽性，能绕过现有防御，威胁基于代码大模型的智能代理安全。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#code-style

Poison with Style: A Practical Poisoning Attack on Code Large Language Models