推荐 9.5
Conf: 50%
本文提出了一种名为 SafeSpeech 的防御框架,旨在保护用户上传的语音免受恶意语音合成技术的滥用。研究背景是:语音合成技术(如 deepfake 音频)已广泛用于电信诈骗等非法活动,攻击者可未经授权收集受害者语音并克隆相似声音。现有防御方法(如添加对抗扰动)在面临鲁棒训练技术时容易失效,且缺乏通用性。为此,SafeSpeech 的核心组件是语音扰动隐藏(SPEC)技术,它利用一个替代生成模型来产生对多种合成模型都有效的通用扰动,并将扰动嵌入到原始音频中,使得合成模型生成的语音质量显著下降。此外,该框架优化了扰动在时域和频域上的人耳感知效果,使扰动几乎不可察觉。实验评估覆盖了多个先进的语音合成模型和数据集,包括主观和客观测试。结果表明:SafeSpeech 在保护效果、可迁移性和对自适应攻击者的鲁棒性上均达到当前最优水平(SOTA),且在实际测试中具备实时处理能力。源代码已公开。该研究为语音数据的安全共享提供了一种主动防御方案。
💡 推荐理由: 针对日益猖獗的语音克隆诈骗,SafeSpeech 提出了一种主动、鲁棒且实时的防御方法,能够在用户端阻止高质量合成语音的生成,对保护个人语音生物特征和遏制电信诈骗有重要意义。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)