#binary-classification

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Michael J. Bommarito

该论文提出了一种名为 MimeLens 的新型内容类型检测方法,旨在解决现有方法(如 Google 的 Magika)在输入不完整、位置未知的二进制片段(例如单个网络包载荷、无文件头的文件碎片、随机磁盘块等)时失效的问题。MimeLens 基于小型 BERT 风格的编码器,通过在文件内随机偏移位置采样窗口进行预训练,从而不依赖文件头位置。它支持标准上下文和短上下文两种变体,输入为任意长度的字节块,输出 libmagic 定义的 125 种 MIME 标签之一。实验表明,在完整文件的头部数据上,MimeLens 的 top-1 准确率比 Magika v1.1 高出 10.7 个百分点;在无法使用 Magika 的场景(如单个 UDP 包中间数据、随机磁盘块)中,MimeLens 仍能分类,且准确率是 libmagic 和 Magika 的两倍以上。代价是延迟:CPU 上比 Magika 慢一到两个数量级,但在消费级 GPU 或批量处理时相当。所有训练好的 checkpoint 已在 Hugging Face 开源。

💡 推荐理由: 在恶意软件分类、网络取证、文件恢复等场景中,常常需要识别位置未知的二进制片段。MimeLens 弥补了现有方法对完整文件头的依赖,提升了实际环境下内容类型检测的鲁棒性和准确性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)