推荐 5.5
Conf: 50%
该论文研究了针对LoRA适配器(当前微调大语言模型的主流格式)的后门攻击及其检测方法。作者通过数据投毒在LoRA适配器中植入后门,同时保持基准任务性能不受影响。以Qwen 2.5 1.5B提示注入分类器为例,少量有毒样本即可使后门达到饱和,且后门在token特征层面泛化,而非结构模式层面:例如,训练时使用RFC引用作为触发器的模型会对任何RFC引用激活,但不会迁移到结构相同的ISO、OWASP、CWE或NIST引用。这种不对称性有利于攻击者,因为防御者无法通用地探测“结构化引用”。作者表征了不同基模型规模与系列、LoRA秩和触发字符串下的攻击效果,并通过多种子适配器队列评估了两种互补的检测方法:基于两个探测统计量(离群间隙和平均攻击率)的行为检测器,当探测集覆盖触发器的token邻域时能完美区分有毒与干净适配器,即使未覆盖也能以高召回率和零误报率检测;权重级统计量(跨模块维度归一化Frobenius范数的标准差)无需运行模型即可完美区分两者。两种检测路线结合对探测组成鲁棒。因果修补将后门定位到中后层的MLP模块,其中down_proj是影响最强的单投影。跨规模、系列和秩的复制实验表明,行为检测器无需调整即可迁移,而权重级检测器受基模型校准约束。攻击随秩单调增强,且触发器锚点token既依赖触发器也依赖基模型。行为检测是面向适配器供应链扫描的实用可移植方案。
💡 推荐理由: 揭示了LoRA适配器供应链中易被忽视的后门风险,并提供了无需运行模型的高效行为检测方案,对LLM安全部署具有直接实用价值。
🎯 建议动作: 研究跟进:评估该检测方法对自身LoRA适配器流水线的适用性,并考虑集成防御。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)