#code-metrics 主题 - Cyber Security Daily Radar

👥 作者: Chun Yin Chiu

本文研究了一种轻量级的函数级漏洞检测方法，旨在为C/C++代码提供快速、可复现的排序基线，以辅助人工分类。传统方法依赖代码图或深度模型，计算成本高，而本文提出的流水线完全避免深度学习、Transformer和图结构，仅使用原始函数的稀疏token n-gram特征（TF-IDF加权）和一组简单的代码度量，包括NLOC、近似圈复杂度、token数、最大括号深度和参数个数。分类器采用带类别权重的逻辑回归，以处理标签不平衡问题。实验基于Devign函数级漏洞标签，评估了随机分割和跨项目（FFmpeg到QEMU）迁移场景，主要关注PR-AUC和Recall@10%等排序导向指标。在随机分割中，最佳组合取得PR-AUC 0.642和Recall@10% 0.161；而跨项目泛化难度显著增加，PR-AUC仅约0.436。此外，还进行了消融实验、标识符重命名鲁棒性测试以及端到端效率分析。结果表明，简单特征组合可作为有用的透明基线，但存在对表层词汇线索敏感、跨项目迁移能力有限等局限。本文适合对代码安全评估中的轻量级方法感兴趣的读者，尤其是需要快速基线对比的研究者或工程团队。

💡 推荐理由: 本文为漏洞检测提供了极简、可解释的基线方法，便于工程团队快速部署和复现，同时揭示了轻量特征在跨项目场景下的局限性，为后续研究指明了改进方向。

🎯 建议动作: 研究跟进，可将其作为基线对比其他复杂模型

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.3)

#code-metrics

Lightweight Vulnerability Detection from Code Metrics and Token Features