#pe-malware 主题 - Cyber Security Daily Radar

👥 作者: José M. Sacristán, Ana I. González-Tablas

本文提出 PRISM（PE 节间关系矩阵），一个用于静态 Windows PE 恶意软件检测的开源数据集和特征表示。现有基准（如 EMBER、BODMAS、SOREL-20M）将 PE 文件表示为扁平的一维特征向量，丢弃了节的顺序和节间关系上下文。PRISM 将每个二进制编码为一个二维矩阵，行按文件顺序对应各个 PE 节，并包含一个全局汇总行以保持与 EMBER 风格模型的兼容性。数据集来自四个恶意软件源（BODMAS、MalwareBazaar、VirusShare 和 CAPE）以及 SOREL-20M 良性软件，共 83,633 个去重矩阵，并构建了一个包含 684 个恶意软件家族的 49,204 个样本的家族过滤分析语料库。通过 Fisher 判别比、互信息和节间信息增益等正式的可分离性分析表明，逐节位置结构包含了扁平表示无法捕获的判别信息。在严格控制的样本匹配比较下，基于 PRISM 紧凑表示的梯度提升分类器在二进制检测性能上几乎与基于更大 EMBER 向量的相同分类器相当，而维度仅为 EMBER 的六分之一；EMBER 仅在极低假阳性区域保持微小的优势，在决策阈值处两者操作上无法区分。作者明确指出二进制检测任务已经饱和，因此 PRISM 保留的结构内容适用于具有更大度量空间的细粒度任务，例如家族分类和直接利用二维结构的架构。数据集、提取库、训练模型和完整分析管道以 CC BY-NC-SA 和 MIT 许可证发布。

💡 推荐理由: PRISM 提供了一种保留 PE 节顺序和节间关系的新型特征表示，弥补了现有扁平特征的不足，有助于提升恶意软件家族分类等细粒度任务的性能，对安全研究人员设计更精准的静态检测模型具有重要参考价值。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#pe-malware

PRISM: PE Relational Inter-Section Matrix. A 2D Section-Aware Dataset for Static PE Malware Detection