#lora-backdoor 主题 - Cyber Security Daily Radar

👥 作者: Travis Lelle

该论文研究了针对LoRA适配器（当前微调大语言模型的主流格式）的后门攻击及其检测方法。作者通过数据投毒在LoRA适配器中植入后门，同时保持基准任务性能不受影响。以Qwen 2.5 1.5B提示注入分类器为例，少量有毒样本即可使后门达到饱和，且后门在token特征层面泛化，而非结构模式层面：例如，训练时使用RFC引用作为触发器的模型会对任何RFC引用激活，但不会迁移到结构相同的ISO、OWASP、CWE或NIST引用。这种不对称性有利于攻击者，因为防御者无法通用地探测“结构化引用”。作者表征了不同基模型规模与系列、LoRA秩和触发字符串下的攻击效果，并通过多种子适配器队列评估了两种互补的检测方法：基于两个探测统计量（离群间隙和平均攻击率）的行为检测器，当探测集覆盖触发器的token邻域时能完美区分有毒与干净适配器，即使未覆盖也能以高召回率和零误报率检测；权重级统计量（跨模块维度归一化Frobenius范数的标准差）无需运行模型即可完美区分两者。两种检测路线结合对探测组成鲁棒。因果修补将后门定位到中后层的MLP模块，其中down_proj是影响最强的单投影。跨规模、系列和秩的复制实验表明，行为检测器无需调整即可迁移，而权重级检测器受基模型校准约束。攻击随秩单调增强，且触发器锚点token既依赖触发器也依赖基模型。行为检测是面向适配器供应链扫描的实用可移植方案。

💡 推荐理由: 揭示了LoRA适配器供应链中易被忽视的后门风险，并提供了无需运行模型的高效行为检测方案，对LLM安全部署具有直接实用价值。

🎯 建议动作: 研究跟进：评估该检测方法对自身LoRA适配器流水线的适用性，并考虑集成防御。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#lora-backdoor

Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection