该论文聚焦于多轮短信诈骗(smishing)检测,针对此前工作中提出的合成对话数据集COVA(3,201条标注对话)的局限性进行了扩展。作者指出COVA存在数据污染、标签不匹配、阶段指示泄露以及提示设计缺陷等问题,导致Transformer模型(如BERT)因输入截断和训练数据不足而表现不佳,而基于TF-IDF特征的XGBoost反而取得了最佳性能(准确率72.5%,macro F1 0.691)。为此,论文提出了COVA-X扩展数据集,包含10,985条对话,覆盖8种针对老年人的诈骗类型。通过改进的生成流程,标签纠错率从49.8%提升至3.9%(改善12.7倍),虚拟绑架类对话的人为痕迹率从67.1%降至46.5%。在扩展数据集上重新训练所有分类器后,核心发现是Longformer模型全面超越XGBoost,准确率达到79.71%,macro F1 0.7786,而XGBoost为78.43%和0.7563。这直接证实Transformer模型需要更大规模的对话语料才能发挥其上下文优势。此外,论文还进行了每类诈骗的结果分析,表明诈骗类别对检测效果有机制一致的影响;清洗前后的敏感性分析证实,数据精炼在所有三种分类器架构上都能恢复真正的标签相关信号。该研究为多轮短信诈骗检测提供了更高质量的数据集和更强的基线模型。
💡 推荐理由: 该工作为多轮短信诈骗检测提供了高质量扩展数据集和更强的基线模型,Longformer的优异表现表明上下文建模的重要性,有助于提升安全防护中针对复杂社交工程的检测能力。
🎯 建议动作: 研究跟进