推荐 3.5
Conf: 50%
该论文提出 MalwarePT,一个面向二进制级别的恶意软件分析基础模型。现有自动化恶意软件分析方法大多依赖手工特征或针对特定任务设计的模型,缺乏通用性和可迁移性。近期二进制级基础模型的发展为可重用的程序表示提供了可能,但它们在恶意软件分析中的应用尚未充分探索,且多数模型仍采用字节级分词,难以捕获多字节代码模式。MalwarePT 基于 ModernBERT 架构的编码器,在 Windows PE 可执行文件的代码段字节上进行掩码语言模型预训练。研究核心问题是:单一预训练编码器能否在不同粒度的恶意软件分析任务间迁移,以及分词设计如何影响这种迁移。为此,作者在代码段字节上训练了字节对编码分词器,将频繁出现的多字节模式压缩到固定上下文窗口内。在三个下游任务上评估了模型:API 调用预测(token级)、功能分类(函数级)和恶意软件检测(程序级,并考虑了时间漂移)。实验表明:预训练在 API 调用预测和功能分类上带来显著增益;增大 BPE 词汇量(超越字节级基线)可提升性能,在词汇量 1024 时达到最佳权衡;在误报率约 0.001 的恶意软件检测中,MalwarePT 优于神经网络基线,并与依赖 PE 结构特征工程模型互补。与现有二进制基础模型对比,MalwarePT 的设计选择在所有下游任务上均取得改进。该工作为构建统一的二进制级基础模型用于恶意软件分析提供了实证依据。
💡 推荐理由: MalwarePT 展示了单一预训练模型可跨多种恶意分析任务迁移,减少对人工特征设计的依赖,有望加速 SOC 自动化分析流水线。其 BPE 分词设计对二进制级模型效果的影响具有参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)