#audio 主题 - Cyber Security Daily Radar

👥 作者: Peng Cheng 0007, Yuwei Wang 0009, Peng Huang, Zhongjie Ba, Xiaodong Lin 0001, Feng Lin 0004, Li Lu 0008, Kui Ren 0001

该论文聚焦于语音可控智能设备面临的对抗样本（AE）威胁。已有黑盒对抗攻击仅需目标ASR系统最终转录结果，但通常需要大量查询，成本高昂，且对抗样本易受ASR模型更新影响。作者指出根本原因在于无法直接在深度学习模型决策边界附近构造对抗样本。基于此，提出ALIF，首个基于语言学特征的黑盒对抗攻击管道。ALIF利用文本-语音（TTS）和ASR模型的互逆过程，在决策边界所在的语言学嵌入空间中生成扰动。基于ALIF管道，进一步提出ALIF-OTL和ALIF-OTA两种方案，分别针对数字域和物理播放环境，在四个商业ASR和语音助手上进行攻击。大量评估表明，ALIF-OTL和ALIF-OTA的查询效率分别比现有方法提升97.7%和73.3%，且攻击性能相当。尤为突出的是，ALIF-OTL仅需一次查询即可生成攻击样本。时间鲁棒性实验验证了该方法对ASR模型更新的抵抗能力。该研究揭示了低成本、高效的黑盒音频对抗攻击途径，对语音平台安全性构成新挑战。

💡 推荐理由: 本文展示了极低成本的黑盒音频对抗攻击，仅需一次查询即可生成有效样本，且对ASR更新鲁棒，提醒防御者此类攻击可能对语音助手和ASR服务造成严重威胁，需关注语言学层面的防御。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Vojtěch Staněk, Eva Trnovská, Kamil Malinka, Anton Firc

该论文对39个深度伪造语音数据集进行了系统性的数据集级审计，分析了可访问性、文档质量、人口统计与语言覆盖范围、数据集规模以及底层真实语音来源等关键属性。研究发现两个重要问题：首先，绝大多数数据集缺乏人口统计元数据（如年龄、种族、国籍等），仅有少数包含性别或语言标签，导致无法进行有意义的子组分析，公平性评估几乎不可行；其次，不同数据集之间底层真实语音语料库存在大量重叠，这种重叠会损害跨数据集评估的有效性，并可能导致泛化性能被夸大。研究揭示了当前深度伪造语音检测领域的系统性数据缺陷，强调了构建更透明、更平衡、更高质量数据集的重要性，并为未来研究方向提供了指导。适合语音安全、AI安全及公平性研究者阅读。

💡 推荐理由: 深度伪造语音检测系统的可信度高度依赖数据集质量，该审计揭示了当前数据集的严重缺陷——缺乏人口统计信息导致公平性无法评估，语料库重叠导致泛化性能虚高。安全从业者部署此类检测系统时需警惕潜在的偏见与过拟合风险。

🎯 建议动作: 阅读论文，关注后续改进数据集的方法论

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yanyun Wang, Yu Huang, Zi Liang, Xixin Wu, Li Liu

本文提出了一种针对大型音频语言模型（LALMs）的新型越狱攻击范式，称为声学干扰攻击（AIA）。传统方法通常将音频作为恶意负载的载体，通过语义优化、声学参数控制或添加扰动来嵌入有害内容。而本文作者发现，LALM的安全对齐可以被特定的声学潜在语义（ALS）所破坏，这些ALS是音频生成模型先验中固有的副语言特征，而与音频的内容无关。AIA利用一组通用的、指令无关的干扰音频，这些音频内容良性但注入了特定的ALS，作为通用越狱触发器，使标准恶意文本查询能够绕过安全对齐，无需针对具体实例进行优化。实验在10个LALM和5个数据集上进行，AIA达到了最先进的攻击成功率。可解释性分析揭示了AIA导致的推理路径偏移，并识别了ALS中的固有有效模式，揭示了LALM跨模态对齐的根本脆弱性。该研究适合AI安全研究人员、LALM开发者及安全防御者阅读。

💡 推荐理由: 该研究揭示了一种利用音频内在的副语言特征（而非内容）绕过LALM安全对齐的全新攻击面，对多模态AI安全构成重大威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#audio

ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features.

Ethical and Technical Limits of Deepfake Speech Datasets

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models