#llm-backdoor 主题 - Cyber Security Daily Radar

👥 作者: Yifei Wang, Tianlin Li, Xiaohan Zhang, Yida Yang, Xiaoyu Zhang, Li Pan

该论文首次揭示了LLM推理优化（尤其是编译优化）中存在的安全漏洞，并提出了一种新型后门攻击——优化触发后门。作者指出，尽管编译优化在部署LLM时广泛使用，且默认假设编译后的计算图与原始计算图语义等价，但编译过程中的数值副作用可能被恶意利用，从而在LLM中植入隐蔽后门。论文提出了两种互补的攻击策略：一种针对特定输入，在模型被编译时才触发预测翻转；另一种使用通用触发器，在未编译执行时保持休眠，一旦应用编译优化则劫持任意输入。两种攻击均能绕过未启用编译的标准安全评估。实验在四个主流开源LLM和四个任务上进行，平均攻击成功率达90%，同时干净准确率在几乎所有设置下保持接近100%。该研究揭示了一个位于LLM部署流水线中优化与安全交叉点的新攻击面，并探讨了实用的防御措施。适合LLM安全研究人员、部署工程师以及编译器开发者阅读。

💡 推荐理由: 该工作揭示了LLM部署中一个被忽视的攻击面——编译优化本身可被武器化植入后门，对安全审计和合规部署构成威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#llm-backdoor

Trusted Weights, Treacherous Optimizations? Optimization-Triggered Backdoor Attacks on LLMs