#ASR 主题 - Cyber Security Daily Radar

👥 作者: Yanis Xabier Wilbrand Peña, Oliver Weißl, Andrea Stocco

该论文提出了一种名为GATAS的自动语音识别（ASR）系统黑盒测试方法。研究背景是，尽管基于transformer的ASR模型在关键应用中取得了高准确率，但仍容易受到对抗性攻击，尤其是在黑盒场景下，攻击需要保持感知自然性。现有方法通常直接扰动波形，容易产生不自然的噪声。GATAS创新地利用文本到语音（TTS）模型的音素级潜在空间来生成触发错误的输入，通过在自然语音流形内插值潜在表示来诱导转录错误。该方法将攻击形式化为一个多目标优化问题，平衡语义差异和感知质量。实验评估基于多个白盒和黑盒基线，结果显示GATAS在保持较低失真和更高感知质量的同时，实现了98%的攻击成功率，人类研究也证实了其自然性。即使没有梯度信息，GATAS仍能与白盒方法竞争，表明表示对齐和感知质量比访问模型内部更关键。该工作为ASR系统的鲁棒性测试提供了高效、真实的黑盒测试用例生成方法。

💡 推荐理由: 该研究揭示了ASR系统的潜在脆弱性，提出了一种既有效又自然的新型黑盒测试方法，对语音助手、听写软件等关键应用的安全测试具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peng Cheng 0007, Yuwei Wang 0009, Peng Huang, Zhongjie Ba, Xiaodong Lin 0001, Feng Lin 0004, Li Lu 0008, Kui Ren 0001

该论文聚焦于语音可控智能设备面临的对抗样本（AE）威胁。已有黑盒对抗攻击仅需目标ASR系统最终转录结果，但通常需要大量查询，成本高昂，且对抗样本易受ASR模型更新影响。作者指出根本原因在于无法直接在深度学习模型决策边界附近构造对抗样本。基于此，提出ALIF，首个基于语言学特征的黑盒对抗攻击管道。ALIF利用文本-语音（TTS）和ASR模型的互逆过程，在决策边界所在的语言学嵌入空间中生成扰动。基于ALIF管道，进一步提出ALIF-OTL和ALIF-OTA两种方案，分别针对数字域和物理播放环境，在四个商业ASR和语音助手上进行攻击。大量评估表明，ALIF-OTL和ALIF-OTA的查询效率分别比现有方法提升97.7%和73.3%，且攻击性能相当。尤为突出的是，ALIF-OTL仅需一次查询即可生成攻击样本。时间鲁棒性实验验证了该方法对ASR模型更新的抵抗能力。该研究揭示了低成本、高效的黑盒音频对抗攻击途径，对语音平台安全性构成新挑战。

💡 推荐理由: 本文展示了极低成本的黑盒音频对抗攻击，仅需一次查询即可生成有效样本，且对ASR更新鲁棒，提醒防御者此类攻击可能对语音助手和ASR服务造成严重威胁，需关注语言学层面的防御。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiani Xie, Andrew C. Cullen, Paul Montague, Benjamin I. P. Rubinstein

该论文研究针对实时自动语音识别（ASR）系统的对抗性攻击。实时ASR系统必须在严格的时间约束下处理声学输入，转录决策基于不完整信息，这种因果约束成为攻击者的信息瓶颈，显著限制了攻击性能。作者提出一种名为“Semantic Gambit”的新型攻击方法，通过实时利用大语言模型（LLM）提供的预测上下文来打破这一因果限制。具体而言，攻击者在生成对抗性扰动时，不仅考虑当前声学帧，还利用LLM基于之前已转录文本预测后续可能的词汇，从而在时间上提前优化扰动，使ASR系统产生更高的词错误率（WER）。实验表明，该方法将语料级WER提升至35.6%，相比当前最先进方法提高了三倍。该工作揭示了低延迟LLM工具如何被系统性地利用来破坏实时ASR流程。论文主要贡献包括：定义并量化因果约束对攻击性能的影响；提出利用LLM先验的对抗攻击框架；在多个ASR模型和数据集上验证有效性。适合ASR安全、对抗性机器学习、以及语音助手安全领域的研究者和工程师阅读。

💡 推荐理由: 该研究展示了LLM可被用作对抗性攻击的赋能工具，显著提升对实时ASR系统的攻击效果，威胁语音助手、实时转录等关键应用的安全性。

🎯 建议动作: 研究跟进：评估自身ASR系统对此类利用LLM先验的攻击的鲁棒性，考虑引入随机化或输入验证机制。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#ASR

Generative Testing of Automated Speech Recognition Systems

ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features.

Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks