#pe-malware

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: José M. Sacristán, Ana I. González-Tablas

本文提出 PRISM(PE 节间关系矩阵),一个用于静态 Windows PE 恶意软件检测的开源数据集和特征表示。现有基准(如 EMBER、BODMAS、SOREL-20M)将 PE 文件表示为扁平的一维特征向量,丢弃了节的顺序和节间关系上下文。PRISM 将每个二进制编码为一个二维矩阵,行按文件顺序对应各个 PE 节,并包含一个全局汇总行以保持与 EMBER 风格模型的兼容性。数据集来自四个恶意软件源(BODMAS、MalwareBazaar、VirusShare 和 CAPE)以及 SOREL-20M 良性软件,共 83,633 个去重矩阵,并构建了一个包含 684 个恶意软件家族的 49,204 个样本的家族过滤分析语料库。通过 Fisher 判别比、互信息和节间信息增益等正式的可分离性分析表明,逐节位置结构包含了扁平表示无法捕获的判别信息。在严格控制的样本匹配比较下,基于 PRISM 紧凑表示的梯度提升分类器在二进制检测性能上几乎与基于更大 EMBER 向量的相同分类器相当,而维度仅为 EMBER 的六分之一;EMBER 仅在极低假阳性区域保持微小的优势,在决策阈值处两者操作上无法区分。作者明确指出二进制检测任务已经饱和,因此 PRISM 保留的结构内容适用于具有更大度量空间的细粒度任务,例如家族分类和直接利用二维结构的架构。数据集、提取库、训练模型和完整分析管道以 CC BY-NC-SA 和 MIT 许可证发布。

💡 推荐理由: PRISM 提供了一种保留 PE 节顺序和节间关系的新型特征表示,弥补了现有扁平特征的不足,有助于提升恶意软件家族分类等细粒度任务的性能,对安全研究人员设计更精准的静态检测模型具有重要参考价值。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)