#instruction-embedding 主题 - Cyber Security Daily Radar

👥 作者: Xuezixiang Li, Yu Qu, Heng Yin 0001

本文提出了一种名为 PalmTree 的汇编语言模型，用于生成通用指令嵌入。传统的指令嵌入方法未能充分捕捉反汇编代码的独特特性，例如忽略指令内部的复杂结构（如操作码、操作数、寻址模式等），并且主要依赖控制流作为上下文信息，而控制流容易受到编译器优化影响，导致噪声大、不稳定。为了克服这些问题，PalmTree 采用自监督预训练方式，在大规模无标签二进制语料库上学习，通过三个预训练任务来捕获汇编语言的不同特征：掩码指令建模（预测被遮盖的标记）、指令内结构建模（学习操作码与操作数之间的关系）、以及指令间关系建模（利用控制流和数据流中的上下文关系）。这些任务使得模型能够生成高质量、通用且鲁棒的指令嵌入向量。作者进行了内在评估（如嵌入相似性、聚类质量）和外在评估（应用于函数边界检测、二进制代码搜索、函数原型推断、值集分析等下游任务），实验结果表明 PalmTree 在内在指标上表现最佳，并且在所有下游任务中均优于其他指令嵌入方案。该研究为深度学习在二进制分析中的应用提供了更有效的指令表示方法，有助于提升相关工具的准确性和泛化能力。

💡 推荐理由: 指令嵌入是许多二进制分析任务（如逆向工程、漏洞挖掘、恶意代码检测）的基础。PalmTree 提供了一种更准确、更鲁棒的通用指令表示方法，有望提升相关工具的精度和自动化程度。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#instruction-embedding

PalmTree: Learning an Assembly Language Model for Instruction Embedding.