#code-metrics

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Chun Yin Chiu

本文研究了一种轻量级的函数级漏洞检测方法,旨在为C/C++代码提供快速、可复现的排序基线,以辅助人工分类。传统方法依赖代码图或深度模型,计算成本高,而本文提出的流水线完全避免深度学习、Transformer和图结构,仅使用原始函数的稀疏token n-gram特征(TF-IDF加权)和一组简单的代码度量,包括NLOC、近似圈复杂度、token数、最大括号深度和参数个数。分类器采用带类别权重的逻辑回归,以处理标签不平衡问题。实验基于Devign函数级漏洞标签,评估了随机分割和跨项目(FFmpeg到QEMU)迁移场景,主要关注PR-AUC和Recall@10%等排序导向指标。在随机分割中,最佳组合取得PR-AUC 0.642和Recall@10% 0.161;而跨项目泛化难度显著增加,PR-AUC仅约0.436。此外,还进行了消融实验、标识符重命名鲁棒性测试以及端到端效率分析。结果表明,简单特征组合可作为有用的透明基线,但存在对表层词汇线索敏感、跨项目迁移能力有限等局限。本文适合对代码安全评估中的轻量级方法感兴趣的读者,尤其是需要快速基线对比的研究者或工程团队。

💡 推荐理由: 本文为漏洞检测提供了极简、可解释的基线方法,便于工程团队快速部署和复现,同时揭示了轻量特征在跨项目场景下的局限性,为后续研究指明了改进方向。

🎯 建议动作: 研究跟进,可将其作为基线对比其他复杂模型

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.3)