#audio-dataset

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Zhongjie Ba, Liang Yi, Peng Cheng, Qingcao Li, Qinglong Wang, Li Lu

该论文针对现有语音毒性检测研究中普遍忽略副语言线索(如情感、语调、语速)的问题,提出了一套全新的解决方案。首先,作者构建了ToxiAlert-Bench,一个大规模音频数据集,包含超过30,000个音频片段,标注了7个主要毒性类别和20个细粒度毒性标签。该数据集独特之处在于标注了毒性来源——区分文本内容和副语言起源,从而支持全面的毒性语音分析。其次,论文提出了一种针对毒性语音检测的双头神经网络架构,配备多阶段训练策略。该架构包含两个任务特定分类头:一个用于识别敏感性来源(文本或副语言),另一个用于分类具体毒性类型。训练过程采用独立的头部训练后联合微调,以减少任务干扰。为缓解数据类别不平衡,引入了类别平衡采样和加权损失函数。实验结果表明,融合副语言特征显著提升了检测性能。该方法在多个评估指标上持续优于现有基线,与最强基线相比,Macro-F1分数相对提升21.1%,准确率相对提升13.0%,凸显了其增强的有效性和实际应用潜力。

💡 推荐理由: 语音毒性检测是维护线上安全交流的关键。该工作首次系统地将副语言线索纳入检测框架,并提供了大规模标注数据集,对增强语音审核系统的鲁棒性和准确性有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)