#code-stylometry 主题 - Cyber Security Daily Radar

👥 作者: Chidera Biringa, Ajmal Abbas, Vishnu Selvaraj, Gokhan Kul

本文提出 VulStyle，一种多模态软件漏洞检测模型，它联合编码函数级源代码、非终结符抽象语法树（AST）结构和代码风格计量（CStyle）特征。现有代码表示方法主要依赖词级模型或完整AST树，往往忽略指示风险编程习惯的风格线索，或者引入高结构开销。VulStyle 仅选择非终结符 AST 节点，在保留语义层次的同时降低输入复杂度，并集成句法和词法 CStyle 特征作为辅助漏洞信号。该模型采用掩码语言建模在 490 万个函数（覆盖七种编程语言）上进行预训练，并在五个基准数据集（Devign、BigVul、DiverseVul、REVEAL、VulDeePecker）上微调。VulStyle 在 BigVul 和 VulDeePecker 上达到当前最优性能，F1 分数相比强基线 Transformer 模型提升 4%-48%，在所有基准上均取得具有竞争力或最优的平均性能。本文还通过消融实验分离 CStyle 和 AST 结构的影响、进行错误案例分析，并在攻击者真实场景下定位检测任务的威胁模型。该研究为漏洞检测提供了融合编程风格特征的新思路，适合安全研究者和代码分析工具开发者阅读。

💡 推荐理由: VulStyle 创新性地融合代码风格计量特征提升漏洞检测性能，在多个基准上显著超越现有方法，为安全工具开发者提供了可直接借鉴的多模态预训练框架。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#code-stylometry

VulStyle: A Multi-Modal Pre-Training for Code Stylometry-Augmented Vulnerability Detection