#asr

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yifan Liao, Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng, Xinlei He

本文针对自动语音识别(ASR)系统的对抗鲁棒性展开研究。现有对抗攻击直接在波形域添加噪声,存在两个主要局限:一是对黑盒ASR系统的迁移性差,二是易被专门防御波形扰动的机制缓解。为此,作者提出了一种基于代理模型的Clean-Referenced Feature-Vocoder Attack(CR-FVA),将对抗扰动空间从原始波形转移到自监督学习(SSL)表示空间。具体而言,攻击者首先在代理ASR模型(如Whisper-small)的SSL特征层上计算对抗梯度,并扰动更具泛化性的声学-音素表示,从而减少对代理模型特定波形梯度的依赖,提升跨系统迁移性;然后利用声码器(vocoder)将扰动后的SSL特征重构为类语音波形信号,使得最终对抗样本看起来更像自然语音,从而绕过基于波形边界的防御。实验表明,仅以公开的Whisper-small为代理模型,CR-FVA在多个黑盒ASR模型上实现了相对最佳基线平均+26.6%的词错误率(WER)提升;针对多种训练防御(如对抗训练、频谱压缩等),WER提升幅度达+36.2%。该研究揭示了当前ASR鲁棒性评估中的一个盲区:大多数防御仅关注波形域扰动,而基于更高层特征的攻击能轻易绕过。本文工作适合ASR安全研究者、对抗机器学习从业者以及语音系统防御工程师阅读,有助于理解现有防御的不足并设计更全面的鲁棒性评估方案。

💡 推荐理由: 该攻击方法揭示了ASR系统在特征层面的新攻击面,能有效绕过现有基于波形扰动的防御,并展现出强黑盒迁移性,对语音助手、会议转录等关键应用的安全性构成潜在威胁,促使防御者重新审视鲁棒性评估标准。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)