#audio-dataset 主题 - Cyber Security Daily Radar

👥 作者: Zhongjie Ba, Liang Yi, Peng Cheng, Qingcao Li, Qinglong Wang, Li Lu

该论文针对现有语音毒性检测研究中普遍忽略副语言线索（如情感、语调、语速）的问题，提出了一套全新的解决方案。首先，作者构建了ToxiAlert-Bench，一个大规模音频数据集，包含超过30,000个音频片段，标注了7个主要毒性类别和20个细粒度毒性标签。该数据集独特之处在于标注了毒性来源——区分文本内容和副语言起源，从而支持全面的毒性语音分析。其次，论文提出了一种针对毒性语音检测的双头神经网络架构，配备多阶段训练策略。该架构包含两个任务特定分类头：一个用于识别敏感性来源（文本或副语言），另一个用于分类具体毒性类型。训练过程采用独立的头部训练后联合微调，以减少任务干扰。为缓解数据类别不平衡，引入了类别平衡采样和加权损失函数。实验结果表明，融合副语言特征显著提升了检测性能。该方法在多个评估指标上持续优于现有基线，与最强基线相比，Macro-F1分数相对提升21.1%，准确率相对提升13.0%，凸显了其增强的有效性和实际应用潜力。

💡 推荐理由: 语音毒性检测是维护线上安全交流的关键。该工作首次系统地将副语言线索纳入检测框架，并提供了大规模标注数据集，对增强语音审核系统的鲁棒性和准确性有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#audio-dataset

Beyond Content: A Comprehensive Speech Toxicity Dataset and Detection Framework Incorporating Paralinguistic Cues