#model-merging 主题 - Cyber Security Daily Radar

👥 作者: Zhenqian Zhu, Yamin Hu, Yiya Diao, Weixiang Li, Haodong Li, Wenjian Luo

本文研究了模型合并（Model Merging, MM）中的后门攻击防御问题。模型合并是一种将多个针对特定任务微调后的模型整合为一个统一模型的高效方法，但最近研究发现该过程极易受到后门攻击。现有的基于任务算术的防御方法通常依赖于直接编辑参数空间，导致在消除后门的同时严重降低清洁任务的性能。针对这一局限，作者提出了一种基于特征空间的线性特征路径最小化（Linear Feature Path Minimization, LFPM）框架。LFPM通过向包含后门的合并模型中引入一个反后门任务向量来实现防御。与现有方法不同，LFPM从跨任务线性性（Cross-Task Linearity, CTL）框架的统一特征空间视角出发，利用不同任务间特征的近似线性关系，指导反后门任务的优化，从而在抑制后门的同时保持清洁任务性能。此外，作者提出了一种基于梯度累积和损失路径积分的有效优化机制，确保沿插值路径实现鲁棒的后门抑制。在多种后门攻击场景下，针对完整微调（Full Fine-Tuning）和参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）设置的广泛实验表明，LFPM consistently表现出强健的防御能力。该工作为模型合并的安全性提供了新的理论视角和实用解决方案，适合关注AI安全、模型融合与后门防御的研究者和工程师阅读。

💡 推荐理由: 模型合并的易受攻击性可能被攻击者利用，植入后门以控制多任务模型行为。LFPM首次从特征空间统一视角解决该问题，无需牺牲清洁任务性能，对实际部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jinghuai Zhang, Yetian He, Kunlin Cai, Han Zhao, Fnu Suya, Yuan Tian

本文提出了 RogueMerge，一个针对大语言模型（LLM）模型合并过程的统一攻击框架。模型合并通过聚合来自未经验证的公共平台的任务向量，将多个专用能力组合到单个 LLM 中，这暴露了关键的供应链攻击面：因为任何恶意行为都可以编码到任务向量中，且合并过程授予第三方向量对模型权重的直接写入权限，攻击者提供的任务向量可以启用或放大多种下游威胁。之前的工作仅研究针对分类器的静态算术启发式后门攻击，无法有效处理生成式 LLM 上的多种攻击，原因有三：(i) LLM 依赖自回归解码，合并引入的微小参数漂移会在 token 间累积，迅速降低攻击效果；(ii) 攻击者不知道受害者合并配置，静态攻击向量容易被稀释或破坏；(iii) 实际威胁诱导必须泛化到优化期间未见过的攻击提示，静态向量无法充分编码。RogueMerge 解决了这三个挑战：为处理自回归生成，它用联合优化替换静态算术，显式地确保合并后攻击成功；为处理未知合并设置，它将攻击注入形式化为随机最小-最大问题，并通过元学习风格模拟求解；为跨异构攻击提示泛化，它采用分布鲁棒优化并推导出 LLM 规模下可处理的一阶泰勒近似，具有可证明的误差界。在四种威胁、六种合并算法和超过 170 个合并 LLM 上，RogueMerge 持续优于现有攻击，且在不同合并设置下保持稳定，并能抵抗标准防御。

💡 推荐理由: 模型合并作为 LLM 供应链中的新兴范式，其安全性研究严重不足。RogueMerge 首次系统地揭示了该场景下的统一攻击面，对依赖公共模型合并的团队构成切实威胁，也为防御机制设计提供了基准。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#model-merging

From Parameters to Feature Space: Task Arithmetic for Backdoor Mitigation in Model Merging

RogueMerge: Robust and Unified Attacks against LLM Model Merging