#feature-space 主题 - Cyber Security Daily Radar

👥 作者: Zhenqian Zhu, Yamin Hu, Yiya Diao, Weixiang Li, Haodong Li, Wenjian Luo

本文研究了模型合并（Model Merging, MM）中的后门攻击防御问题。模型合并是一种将多个针对特定任务微调后的模型整合为一个统一模型的高效方法，但最近研究发现该过程极易受到后门攻击。现有的基于任务算术的防御方法通常依赖于直接编辑参数空间，导致在消除后门的同时严重降低清洁任务的性能。针对这一局限，作者提出了一种基于特征空间的线性特征路径最小化（Linear Feature Path Minimization, LFPM）框架。LFPM通过向包含后门的合并模型中引入一个反后门任务向量来实现防御。与现有方法不同，LFPM从跨任务线性性（Cross-Task Linearity, CTL）框架的统一特征空间视角出发，利用不同任务间特征的近似线性关系，指导反后门任务的优化，从而在抑制后门的同时保持清洁任务性能。此外，作者提出了一种基于梯度累积和损失路径积分的有效优化机制，确保沿插值路径实现鲁棒的后门抑制。在多种后门攻击场景下，针对完整微调（Full Fine-Tuning）和参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）设置的广泛实验表明，LFPM consistently表现出强健的防御能力。该工作为模型合并的安全性提供了新的理论视角和实用解决方案，适合关注AI安全、模型融合与后门防御的研究者和工程师阅读。

💡 推荐理由: 模型合并的易受攻击性可能被攻击者利用，植入后门以控制多任务模型行为。LFPM首次从特征空间统一视角解决该问题，无需牺牲清洁任务性能，对实际部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yifan Liao, Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng, Xinlei He

本文针对自动语音识别（ASR）系统的对抗鲁棒性展开研究。现有对抗攻击直接在波形域添加噪声，存在两个主要局限：一是对黑盒ASR系统的迁移性差，二是易被专门防御波形扰动的机制缓解。为此，作者提出了一种基于代理模型的Clean-Referenced Feature-Vocoder Attack（CR-FVA），将对抗扰动空间从原始波形转移到自监督学习（SSL）表示空间。具体而言，攻击者首先在代理ASR模型（如Whisper-small）的SSL特征层上计算对抗梯度，并扰动更具泛化性的声学-音素表示，从而减少对代理模型特定波形梯度的依赖，提升跨系统迁移性；然后利用声码器（vocoder）将扰动后的SSL特征重构为类语音波形信号，使得最终对抗样本看起来更像自然语音，从而绕过基于波形边界的防御。实验表明，仅以公开的Whisper-small为代理模型，CR-FVA在多个黑盒ASR模型上实现了相对最佳基线平均+26.6%的词错误率（WER）提升；针对多种训练防御（如对抗训练、频谱压缩等），WER提升幅度达+36.2%。该研究揭示了当前ASR鲁棒性评估中的一个盲区：大多数防御仅关注波形域扰动，而基于更高层特征的攻击能轻易绕过。本文工作适合ASR安全研究者、对抗机器学习从业者以及语音系统防御工程师阅读，有助于理解现有防御的不足并设计更全面的鲁棒性评估方案。

💡 推荐理由: 该攻击方法揭示了ASR系统在特征层面的新攻击面，能有效绕过现有基于波形扰动的防御，并展现出强黑盒迁移性，对语音助手、会议转录等关键应用的安全性构成潜在威胁，促使防御者重新审视鲁棒性评估标准。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#feature-space

From Parameters to Feature Space: Task Arithmetic for Backdoor Mitigation in Model Merging

Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition