推荐 3.5
Conf: 50%
本文针对公开源代码仓库中凭证泄露的严重安全问题展开研究。2024年已有超过2380万个秘密被暴露,现有检测工具由于依赖刚性模式匹配和二元分类(仅区分真实凭证与非凭证),导致大量误报——无法有效区分真实凭证与占位符或弱凭证。为此,作者提出一个三分类框架,将占位符/弱凭证明确建模为独立类别。该框架结合基于CodeBERT的语义理解与字符级模式识别,提取代码上下文的深层特征和字符形态特征。研究团队构建了一个包含9426个样本的新数据集,涵盖10种编程语言。实验结果表明,模型在真实凭证泄露检测上达到93%召回率和89%精确率,宏F1分数0.90,马修斯相关系数0.86。与纯字符级方法相比,占位符/弱凭证检测的F1分数从54%提升至81%。同时,高严重性告警数量减少了33.0%(从373降至250),且未牺牲安全覆盖范围。在留一语言交叉验证中,9种语言的F1分数超过0.80,展现出强大的跨语言泛化能力。该研究为提升凭证泄露检测的准确性和实用性提供了新思路。
💡 推荐理由: 现有凭证泄露工具因高误报率导致告警疲劳,难以有效定位真实威胁。本文方法通过三分类显著降低误报,对安全运维团队提升检测效率具有直接参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)