#asr 主题 - Cyber Security Daily Radar

👥 作者: Yang Gao

该论文系统性地评估了用于衡量大语言模型（LLM）越狱攻击成功率的自动化裁判（ASR评分器）的可靠性。研究背景是：几乎所有关于LLM越狱和提示注入的论文都报告攻击成功率（ASR），但这些ASR通常由自动化裁判（专用安全分类器或通用聊天模型）打分，而裁判本身的准确性很少被验证。论文使用HarmBench分类器验证集中的596个人工标注样本，将两种裁判家族（专用分类器和LLM-as-judge）与人类多数投票进行比较，然后对裁判进行攻击。研究发现两种裁判在失败方式上截然相反：专用分类器过度标记（精确率0.835，召回率0.974）；三个不同的LLM-as-judge精确率高（0.81-0.94），但召回率波动大（0.06-0.65），导致同一组响应因裁判不同而得到截然不同的ASR。鲁棒性方面，仅添加良性框架而保持有害文本不变的包装器可使LLM-as-judge在57%-100%的情况下被翻转，其中单个拒绝前缀语句就解释了大量翻转（39%-88%）。专用分类器抵抗此类表面攻击（最多6.7%），但针对其开放权重的白盒GCG攻击在很小的优化预算下就翻转了70%的置信真阳性（21/30，95% CI 54%-86%）。双标注员审计确认攻击未破坏有害性：采样的80个翻转案例全部仍包含有害内容。由于报告ASR中来自LLM-as-judge的比例日益增长，许多ASR数字在平均情况下和受刻意压力下都不可靠。论文建议在论文中报告裁判在人工标注切片上的精确率和召回率，报告经裁判精确率校正的ASR，并包含对裁判的对抗性检查。代码已开源。

💡 推荐理由: 当前大量LLM安全研究依赖自动化裁判报告ASR，但裁判自身的可靠性从未被系统性检验。本论文揭示专用分类器和LLM-as-judge双方向都脆弱，可能导致大量已发表结果不可靠，直接冲击整个LLM安全评估的可信度。

🎯 建议动作: 研究跟进：论文提出的裁判校准和对抗检查方法应纳入内部评估流程，建议在提交安全评估结果时同时报告裁判的精确率和召回率。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yifan Liao, Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng, Xinlei He

本文针对自动语音识别（ASR）系统的对抗鲁棒性展开研究。现有对抗攻击直接在波形域添加噪声，存在两个主要局限：一是对黑盒ASR系统的迁移性差，二是易被专门防御波形扰动的机制缓解。为此，作者提出了一种基于代理模型的Clean-Referenced Feature-Vocoder Attack（CR-FVA），将对抗扰动空间从原始波形转移到自监督学习（SSL）表示空间。具体而言，攻击者首先在代理ASR模型（如Whisper-small）的SSL特征层上计算对抗梯度，并扰动更具泛化性的声学-音素表示，从而减少对代理模型特定波形梯度的依赖，提升跨系统迁移性；然后利用声码器（vocoder）将扰动后的SSL特征重构为类语音波形信号，使得最终对抗样本看起来更像自然语音，从而绕过基于波形边界的防御。实验表明，仅以公开的Whisper-small为代理模型，CR-FVA在多个黑盒ASR模型上实现了相对最佳基线平均+26.6%的词错误率（WER）提升；针对多种训练防御（如对抗训练、频谱压缩等），WER提升幅度达+36.2%。该研究揭示了当前ASR鲁棒性评估中的一个盲区：大多数防御仅关注波形域扰动，而基于更高层特征的攻击能轻易绕过。本文工作适合ASR安全研究者、对抗机器学习从业者以及语音系统防御工程师阅读，有助于理解现有防御的不足并设计更全面的鲁棒性评估方案。

💡 推荐理由: 该攻击方法揭示了ASR系统在特征层面的新攻击面，能有效绕过现有基于波形扰动的防御，并展现出强黑盒迁移性，对语音助手、会议转录等关键应用的安全性构成潜在威胁，促使防御者重新审视鲁棒性评估标准。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#asr

How Reliable Is Your Jailbreak Judge? Calibration and Adversarial Robustness of Automated ASR Scoring

Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition