#WavLM 主题 - Cyber Security Daily Radar

👥 作者: Vojtěch Staněk, Veronika Jirmusová, Anton Firc, Kamil Malinka, Jakub Reš, Martin Perešíni

本文针对深度伪造语音检测器的可解释性不足问题，提出了一种基于积分梯度（Integrated Gradients）和时间对齐自监督表示（如WavLM）的音频原生可解释性流水线。该方法能够定位检测器在时间维度上的决策证据，并语义化解释最重要的声学线索。作者将方法应用于三种基于WavLM的检测器（AASIST、CA-MHFA、SLS），并在ASVspoof 5数据集上进行分析。通过人工标注最高归因区域，发现各检测器依赖不同的线索：AASIST强调非语音/环境线索，CA-MHFA关注局部音素伪影，SLS依赖词边界和频谱完整性。进一步通过因果掩码验证，去除主要线索后检测性能显著下降，证实了归因分析的有效性。该研究为理解深度伪造语音检测器的内部机制提供了可解释性工具，有助于改进检测器的鲁棒性和可信度。

💡 推荐理由: 该研究为深度伪造语音检测提供了可解释性方法，帮助安全分析师理解检测器的决策依据，从而在选择、部署和调试检测器时做出更明智的决策，增强对AI模型的信任。

🎯 建议动作: 研究跟进该可解释性方法的实现，评估其在自有机房检测流水线中的适用性。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#WavLM

What Do Deepfake Speech Detectors Actually Hear?