#byte-level-model 主题 - Cyber Security Daily Radar

👥 作者: Florian Störtz, Catalin-Andrei Stan, Alexandru Dinu, Sandra Servia-Rodríguez, Mihaela Gaman, Calin Miron, Edward Raff

该论文提出首个能够直接处理编译后可执行文件原始字节的“大字节模型”（Large Byte Model），无需依赖反汇编或反编译等开销高昂且易出错的“提升”工具。传统大语言模型（LLM）无法理解原始字节序列，因此难以直接应用于底层恶意软件分析。作者通过设计一套自定义字节分词器（byte tokenizer）实现词汇扩展，使模型能够原生处理二进制字节流，并回答关于恶意软件二进制文件的复杂问题。实验表明，该模型在恶意软件家族分类任务上达到69%的准确率，在架构分类任务上达到98%的准确率。研究还发现，在训练过程中注入领域知识（如指令、操作码结构等）对模型性能至关重要，而直接使用现有通用LLM则缺乏准确性和洞察力。目前该模型已部署给少量分析师进行试用反馈。本工作为安全分析中的自动化二进制理解提供了新范式，尤其适用于恶意软件检测、分类和逆向工程场景。

💡 推荐理由: 安全分析师常需处理二进制恶意软件，但现有LLM无法直接分析原始字节，依赖反汇编工具。该模型跳过这一步骤，有望大幅提升恶意软件分析效率和准确性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#byte-level-model

Large Byte Model: Teaching Language Models About Compiled Code