#backdoor defense 主题 - Cyber Security Daily Radar

👥 作者: Fabien Polly

该论文针对参数高效微调（PEFT）中的安全风险，特别是微调投毒攻击，提出了一种子空间约束的微调方法。研究背景是：PEFT虽然只更新少量参数，但仍有足够能力表示恶意行为，使得投毒目标函数可被优化。为此，作者从现有任务适配器的可信池中估计出一个共享子空间，并将微调限制在该子空间内。在flan-t5-large模型和196个公开LoRA适配器上的实验表明：（1）适配器中的功能相关内容位于低维共享子空间，30-38%的权重范数在评估任务分布下是冗余的；（2）在该子空间上限制128个坐标的梯度适配，在干净分类数据上匹配全LoRA微调性能，而在针对标签反转攻击下，LoRA的精确匹配率降至3-26%，而约束学习器在池覆盖的任务上保持62-96%；（3）约束学习器无法拟合损坏数据，其适应损失将干净数据与垃圾数据区分开120倍，无需额外检测器即可提供分布外信号；（4）针对在子空间内优化的自适应后门攻击，当目标行为与池中任何行为不同时，攻击被阻止（成功率8% vs LoRA的100%），仅当目标行为与常见池行为一致时部分成功（85%）。该方法机制是以峰值塑性为代价换取这些属性：在池覆盖差的任务上，无约束微调更优，且保护假设池本身可信。代码和数据已公开。该研究为防御微调投毒提供了新思路，特别适合关注LLM安全、微调鲁棒性的研究人员和工程师。

💡 推荐理由: 针对参数高效微调中的投毒和后门攻击，提出了一种无需额外检测器的子空间约束方法，显著提升了安全性，同时保持了大部分下游任务性能。

🎯 建议动作: 研究跟进，评估该方法在自己的微调流水线中的可行性与效果。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#backdoor defense

Learning Only What Valid Adapters Can Express: Subspace-Constrained Adaptation Against Fine-Tuning Poisoning