#three-class-classification 主题 - Cyber Security Daily Radar

👥 作者: Maksuda Bilkis Baby, Khushika Shah, Naiyue Liang, Lei Zhang

本文针对公开源代码仓库中凭证泄露的严重安全问题展开研究。2024年已有超过2380万个秘密被暴露，现有检测工具由于依赖刚性模式匹配和二元分类（仅区分真实凭证与非凭证），导致大量误报——无法有效区分真实凭证与占位符或弱凭证。为此，作者提出一个三分类框架，将占位符/弱凭证明确建模为独立类别。该框架结合基于CodeBERT的语义理解与字符级模式识别，提取代码上下文的深层特征和字符形态特征。研究团队构建了一个包含9426个样本的新数据集，涵盖10种编程语言。实验结果表明，模型在真实凭证泄露检测上达到93%召回率和89%精确率，宏F1分数0.90，马修斯相关系数0.86。与纯字符级方法相比，占位符/弱凭证检测的F1分数从54%提升至81%。同时，高严重性告警数量减少了33.0%（从373降至250），且未牺牲安全覆盖范围。在留一语言交叉验证中，9种语言的F1分数超过0.80，展现出强大的跨语言泛化能力。该研究为提升凭证泄露检测的准确性和实用性提供了新思路。

💡 推荐理由: 现有凭证泄露工具因高误报率导致告警疲劳，难以有效定位真实威胁。本文方法通过三分类显著降低误报，对安全运维团队提升检测效率具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#three-class-classification

Separating Secrets from Placeholders: A Hybrid CNN-CodeBERT Framework for Three-Class Credential Leakage Detection