#llm-backdoor

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yifei Wang, Tianlin Li, Xiaohan Zhang, Yida Yang, Xiaoyu Zhang, Li Pan

该论文首次揭示了LLM推理优化(尤其是编译优化)中存在的安全漏洞,并提出了一种新型后门攻击——优化触发后门。作者指出,尽管编译优化在部署LLM时广泛使用,且默认假设编译后的计算图与原始计算图语义等价,但编译过程中的数值副作用可能被恶意利用,从而在LLM中植入隐蔽后门。论文提出了两种互补的攻击策略:一种针对特定输入,在模型被编译时才触发预测翻转;另一种使用通用触发器,在未编译执行时保持休眠,一旦应用编译优化则劫持任意输入。两种攻击均能绕过未启用编译的标准安全评估。实验在四个主流开源LLM和四个任务上进行,平均攻击成功率达90%,同时干净准确率在几乎所有设置下保持接近100%。该研究揭示了一个位于LLM部署流水线中优化与安全交叉点的新攻击面,并探讨了实用的防御措施。适合LLM安全研究人员、部署工程师以及编译器开发者阅读。

💡 推荐理由: 该工作揭示了LLM部署中一个被忽视的攻击面——编译优化本身可被武器化植入后门,对安全审计和合规部署构成威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)