本文研究了模型合并(Model Merging, MM)中的后门攻击防御问题。模型合并是一种将多个针对特定任务微调后的模型整合为一个统一模型的高效方法,但最近研究发现该过程极易受到后门攻击。现有的基于任务算术的防御方法通常依赖于直接编辑参数空间,导致在消除后门的同时严重降低清洁任务的性能。针对这一局限,作者提出了一种基于特征空间的线性特征路径最小化(Linear Feature Path Minimization, LFPM)框架。LFPM通过向包含后门的合并模型中引入一个反后门任务向量来实现防御。与现有方法不同,LFPM从跨任务线性性(Cross-Task Linearity, CTL)框架的统一特征空间视角出发,利用不同任务间特征的近似线性关系,指导反后门任务的优化,从而在抑制后门的同时保持清洁任务性能。此外,作者提出了一种基于梯度累积和损失路径积分的有效优化机制,确保沿插值路径实现鲁棒的后门抑制。在多种后门攻击场景下,针对完整微调(Full Fine-Tuning)和参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)设置的广泛实验表明,LFPM consistently表现出强健的防御能力。该工作为模型合并的安全性提供了新的理论视角和实用解决方案,适合关注AI安全、模型融合与后门防御的研究者和工程师阅读。
💡 推荐理由: 模型合并的易受攻击性可能被攻击者利用,植入后门以控制多任务模型行为。LFPM首次从特征空间统一视角解决该问题,无需牺牲清洁任务性能,对实际部署具有重要参考价值。
🎯 建议动作: 研究跟进