#binary-analysis 主题 - Cyber Security Daily Radar

👥 作者: Xin Jin, Kexin Pei, Jun Yeon Won 0001, Zhiqiang Lin 0001

在二进制逆向工程中，函数名是理解程序行为的关键线索，但剥离二进制文件（stripped binaries）中丢失了符号信息。现有方法通常利用静态特征或控制流图进行函数名预测，但忽略了代码执行过程中的动态语义和上下文敏感信息。本文提出 SymLM（Symbol Learning through Language Models with Execution Awareness），一种结合静态分析、动态执行轨迹和语言模型的全新框架，旨在为剥离二进制中的函数自动生成语义丰富的名称。该方法首先通过轻量级二进制插桩收集函数粒度的执行轨迹，提取内存访问模式、系统调用序列等运行时行为特征；同时利用静态反汇编构建上下文敏感的代码嵌入（包括调用上下文、数据依赖关系）。然后，设计一种双编码器架构：一个编码器处理静态控制流与数据流图，另一个编码器处理动态执行序列，两者通过注意力机制融合形成统一表示。最后，将该表示输入基于 Transformer 的解码器，以自回归方式预测函数名。在包含常用库和恶意软件样本的大规模数据集上，SymLM 在 top-1 准确率和命中率上均显著优于现有基线（如 DEEPMEM、Asm2Vec），尤其在处理复杂的系统级函数和混淆代码时表现出强鲁棒性。实验还证明，模型能够泛化到未见过的新二进制和编译器版本。该工作为自动化逆向分析、漏洞发现和恶意软件分类提供了实用的辅助工具，展示了将运行时语义融入代码表示学习的巨大潜力。

💡 推荐理由: 函数名预测能大幅提升逆向工程师分析剥离二进制（如恶意软件、固件）的效率，SymLM 首次系统地将执行感知融入学习，填补了静态方法无法捕捉动态行为的空白。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Lesly-Ann Daniel, Sébastien Bardin, Tamara Rezk

Spectre 漏洞利用微架构推测执行机制窃取敏感信息，自 2018 年公开以来给密码库等关键软件带来严重威胁。现有检测方法面临两大挑战：推测路径导致的状态空间爆炸，以及不同编译阶段可能引入新的 Spectre 漏洞。本文提出一种名为 Haunted RelSE 的优化技术，旨在实现二进制级别可扩展的 Spectre 漏洞检测。Haunted RelSE 是一种关系符号执行优化，通过语义等价的变换，将显式的推测探索转化为更高效的隐式关系推理，从而大幅减少需探索的路径数量。作者在符号分析工具中实现了该技术，并在针对 Spectre-PHT（条件分支误预测）和 Spectre-STL（存储到加载转发）的两个 litmus 测试集上进行了全面评估。实验结果表明，Haunted RelSE 相比现有最先进技术和工具，能发现更多违规，且可扩展性更优。此外，将该工具应用于真实世界的密码库时，发现了之前未知的漏洞。特别值得注意的是，研究发现标准防御措施 index-masking（用于阻止 Spectre-PHT）以及 gcc 编译位置无关可执行文件（PIE）的常用选项（如 -fPIE）会引入新的 Spectre-STL 违规。作者提出并验证了 index-masking 的一种修正方案，以消除该问题。本文适合安全研究人员、编译开发者及密码库维护者阅读。

💡 推荐理由: 提出了一种高效、可扩展的二进制级 Spectre 漏洞检测方法，并发现主流防御措施和编译选项会引入新漏洞，对安全开发有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Monika Santra

该论文提出了一种新颖的 AI 增强静态分析方法，旨在弥合传统静态分析中启发式方法与完备性之间的鸿沟，为实用的逆向工程提供可靠解决方案。逆向工程面临诸多挑战，如代码与数据交织、缺少名称/类型/栈帧、编译器激进优化以及各种混淆技术。传统静态分析工具依赖基于启发式的策略，但易受特定模式限制且泛化能力不足。近年来，AI 技术在从低级表示中预测高级语义结构方面展现出潜力，例如通过深度学习模型推断丢失的编译时信息。然而，纯 AI 方法在安全关键的二进制分析中往往难以保证完备性和可靠性。为此，论文提出了 AI 与静态分析的协同框架：用 AI 替代脆弱的启发式规则以增强泛化能力，同时利用静态分析提供的最佳努力完备性来强化 AI，满足安全应用的严格要求。研究聚焦于三个在学术研究和现有工具中服务不足的关键逆向工程任务：指令边界识别、函数边界识别以及控制流图（CFG）的构建，特别是针对间接调用目标的解析。最终目标是开发一个端到端的反汇编框架，实现 AI 与静态分析的深度融合。实验部分预期将展示该方法在准确性和完整性上优于现有纯静态或纯 AI 方案。该工作适合二进制安全分析师、逆向工程师以及编译器/静态分析工具开发者阅读。

💡 推荐理由: 该研究直接解决逆向工程中长期的瓶颈问题——如何在保证完备性的前提下提升自动化程度。对于安全分析人员而言，更可靠的指令/函数边界识别和 CFG 构建能显著减少误报漏报，提高恶意软件分析、漏洞挖掘等任务的效率。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Michael J. Bommarito

现代操作系统的攻击面如同一个巨大的干草堆：包含数千个已签名的二进制文件和数百万个函数，其中绝大多数与任何特定漏洞无关。人类分析师或LLM代理必须先挑选出值得阅读的函数，然后才能进行分析。在整个操作系统范围内，目标选择（而非分析）成为了制约瓶颈。本文提出了Symbolicate-Enrich-Sample（SES）管道，这是一个低成本的批量处理流程，能够将一批生产环境中的Windows二进制文件转化为可查询、按优先级排序的研究队列。具体步骤包括：(i) 通过自动获取公共符号文件并关联恢复的调用图，为被剥离符号的供应商二进制文件恢复函数级符号；(ii) 为每个命名函数附加廉价、确定性的结构特征，并基于这些特征使用低成本语言模型分配可达性层级、风险等级、漏洞类别假设和推理依据；(iii) 通过优先级加权重要性采样器抽取多样化、优先化的批次。该管道的主要贡献在于提供了一个选择基底：下游检测器或LLM代理可以在此优先层级之上运行。在整个包含7,231,419个函数的Windows镜像上，标签具有显著的选择性，通过堆叠确定性过滤器，最终留下约22,000个函数的短名单：即候选的“针尖”，数量足够人类或代理逐一处理。论文还描述了管道的选择性、失败模式、方法学，并报告了汇总统计数据；出于法律和双重用途原因，未提供导出的数据集。

💡 推荐理由: 本文提出了一种在操作系统规模下高效筛选潜在漏洞目标的方法，能够极大减少人工或自动化分析需要关注的函数数量，提升漏洞研究效率，对安全研究员和蓝队具有参考价值。

🎯 建议动作: 研究跟进，评估是否可将该方法集成到内部漏洞研究或攻击面管理流程中。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sun Hyoung Kim, Cong Sun 0001, Dongrui Zeng, Gang Tan

该论文提出了一种名为BPA的二进制级指向分析框架，旨在解决商业现货（COTS）二进制程序中控制流完整性（CFI）实施的关键挑战——构建高精度控制流图（CFG）。由于缺失符号和类型等源码级信息，间接调用（indirect call）的目标推断尤为困难。现有的二进制级指向分析技术（如值集分析VSA）虽能推断间接目标，但存在两大缺陷：一是无法扩展到大型程序，二是设计上过度保守导致CFG精度低。BPA采用若干关键技术：块内存模型（block memory model），将内存划分为块并执行内存访问分析，以提升可扩展性与精度的平衡。实验评估表明，BPA在不引入假阴性的前提下，相比当前最先进的技术实现了34.5%的精度提升。该方法为二进制级CFI的实用化提供了新思路，特别适用于缺乏源码的遗留或第三方二进制程序的安全加固。

💡 推荐理由: 间接调用目标推断是二进制级CFI的核心瓶颈。BPA显著提升精度（34.5%），可直接减少安全监控中的误报，提高攻击检测可靠性，对防护COTS二进制程序有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chang Liu, Noah Fleischmann, Nicolò Altamura, Edward Raff, James Holt, Kristopher Micinski

该论文提出了ASSEMBLAGE-DEEPHISTORY，一个跨构建的二进制数据集，旨在弥补现有二进制语料库缺乏时间维度、跨编译多样性以及CVE标签组合的不足。数据集包含73,610个二进制文件，涵盖248个开源项目，使用GCC、Clang和MSVC编译器，在Linux和Windows平台上以多种优化级别编译，并包含跨多年的历史构建。每个二进制文件都通过数据库索引，关联其源代码、函数、调试信息、变体构建、历史版本以及易受攻击的函数。论文通过三个分析展示了该数据集的价值：一是设计了一个三阶段的LLM基准测试（识别、策略引导检测、跨构建迁移），用于测试LLM是否真正推理二进制漏洞还是仅匹配构建特定的模式；二是比较了MalConv嵌入、jTrans函数嵌入和TLSH模糊哈希在不同包版本的聚类效果；三是通过贝叶斯回归将二进制相似性分解为时间距离、文件变更和提交等贡献因素。该论文适合二进制安全分析、漏洞研究、机器学习应用于逆向工程领域的研究人员阅读。

💡 推荐理由: 该数据集为二进制安全研究提供了首个融合跨编译多样性、历史版本和CVE标签的统一框架，有助于提升漏洞检测模型的泛化能力和可解释性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xuezixiang Li, Yu Qu, Heng Yin 0001

本文提出了一种名为 PalmTree 的汇编语言模型，用于生成通用指令嵌入。传统的指令嵌入方法未能充分捕捉反汇编代码的独特特性，例如忽略指令内部的复杂结构（如操作码、操作数、寻址模式等），并且主要依赖控制流作为上下文信息，而控制流容易受到编译器优化影响，导致噪声大、不稳定。为了克服这些问题，PalmTree 采用自监督预训练方式，在大规模无标签二进制语料库上学习，通过三个预训练任务来捕获汇编语言的不同特征：掩码指令建模（预测被遮盖的标记）、指令内结构建模（学习操作码与操作数之间的关系）、以及指令间关系建模（利用控制流和数据流中的上下文关系）。这些任务使得模型能够生成高质量、通用且鲁棒的指令嵌入向量。作者进行了内在评估（如嵌入相似性、聚类质量）和外在评估（应用于函数边界检测、二进制代码搜索、函数原型推断、值集分析等下游任务），实验结果表明 PalmTree 在内在指标上表现最佳，并且在所有下游任务中均优于其他指令嵌入方案。该研究为深度学习在二进制分析中的应用提供了更有效的指令表示方法，有助于提升相关工具的准确性和泛化能力。

💡 推荐理由: 指令嵌入是许多二进制分析任务（如逆向工程、漏洞挖掘、恶意代码检测）的基础。PalmTree 提供了一种更准确、更鲁棒的通用指令表示方法，有望提升相关工具的精度和自动化程度。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xinran Zheng, Alfredo Pesoli, Marco Valleri, Suman Jana, Lorenzo Cavallaro

本文提出 Veritas，一个基于语义的二进制内存破坏漏洞检测框架。针对剥离二进制文件中恢复对象语义、跨过程传播和可行触发条件的难点，Veritas 结合了三个关键组件：首先，一个基于 RetDec 提升的 LLVM IR 的静态切片器，重构包括 def-use、调用、返回、全局变量和指针操作在内的值流关系，生成紧凑的、带有证据支持的流对象；其次，一个双视角大语言模型检测器，通过反编译的 C 代码和精选的 LLVM IR 分步推理，关注控制流、边界和对象对应关系，避免全局传播；最后，一个多智能体验证器，通过引导式调试、断点检查和内存检查预言机来确认或拒绝候选漏洞。Veritas 实现为模块化流水线，在真实世界二进制漏洞基准上评估，达到 90% 的召回率。在误报评估中，对 623 个检测候选进行穷举验证和人工审计，穷举部分无假阳性，额外审计确认两个假阳性。实际应用中，Veritas 发现了一个此前未知的 Apple 漏洞并获得 CVE。该工作表明语义基础化作为实用二进制漏洞检测的操作设计原则的可行性。

💡 推荐理由: 二进制漏洞检测是安全分析的难点，Veritas 通过结合静态分析和 LLM 推理，大幅提升检测准确率并发现真实 CVE，为自动化二进制安全分析提供了可落地方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hwiwon Lee, Jongseong Kim, Lingming Zhang

本文提出 SLYP，一种端到端智能体管道，用于在 Windows 组件对象模型（COM）二进制文件中发现竞争条件漏洞并生成经调试器验证的利用证明（PoC）。COM 服务以高权限运行且对认证用户广泛可用，其中的竞争条件是本地权限提升的关键攻击面。SLYP 将二进制探索、COM 检查和动态调试封装为可重用的工具接口，使智能体能够获取静态上下文、COM 激活元数据和调试器反馈，从而从漏洞发现过渡到可验证的 PoC 生成。在包含 20 个 COM 对象、40 个漏洞案例的基准测试中，SLYP 的 F1 值达到 0.973，比生产级编码智能体最高提升 0.208，比最先进的静态分析器在漏洞发现上提升 3.3 倍。在 PoC 生成方面，生产级编码智能体在默认配置（无 COM 检查和动态调试工具）下几乎无法验证任何案例，而 SLYP 的交互式工具集使其在最强配置下能够自主合成 67.5% 案例的有效 PoC。在真实生产 Windows 服务中部署后，SLYP 发现了 9 个 COM 服务中的 28 个先前未知漏洞，全部得到微软安全响应中心（MSRC）确认，并分配了 16 个 CVE 和 14 万美元奖金。此外，SLYP 的设计包含可泛化的二进制分析和调试接口，可轻松应用于其他商业现成（COTS）二进制文件。该研究展示了基于智能体的方法在复杂二进制漏洞挖掘中的巨大潜力，将大型语言模型与专用工具结合，实现了从发现到 PoC 验证的全自动化。

💡 推荐理由: SLYP 首次证明基于 LLM 的智能体能自主发现并验证 Windows COM 二进制中的真实竞争条件漏洞，获得 MSRC 确认和奖金，为二进制漏洞自动化挖掘开辟了新范式。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yiran Zhu, Tong Tang, Jie Wan, Ziqi Yang, Zhenguang Liu, Lorenzo Cavallaro

本文提出了一种名为 BINALIGNER 的二进制差异分析方法，旨在解决跨编译环境（如不同版本、编译器、优化级别、架构）下二进制代码比较的难题。现有方法通常基于基本块的相似度进行匹配，在跨编译环境中效果不佳且灵活性差。BINALIGNER 的核心创新包括：1) 采用条件松弛策略，通过放宽匹配条件来寻找候选子图对，从而减少误匹配和漏匹配；2) 使用与指令无关的基本块特征（如基于数据流和控制流的特征）生成子图嵌入，以支持跨编译环境的灵活比较。作者在四个跨编译环境场景（跨版本、跨编译器、跨优化级别、跨架构）上进行了实验，结果显示 BINALIGNER 在大多数场景下显著优于现有方法，尤其在跨架构场景和多组合场景中，F1 分数平均比基线高 65%。此外，通过两个真实漏洞（CVE 案例）及其补丁的案例研究，验证了 BINALIGNER 在漏洞检测和补丁分析中的实用性。该研究为二进制安全分析领域提供了一种高效、鲁棒的差异分析工具，适用于漏洞发现、恶意软件分析和代码复用检测等场景。

💡 推荐理由: 二进制差异分析是漏洞检测和补丁分析的关键技术。BINALIGNER 显著提升了跨编译环境下的匹配精度，有助于安全工程师更准确地发现跨平台漏洞和进行逆向工程。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhechang Zhang, Hengkai Ye, Song Liu, Hong Hu 0004

本文提出 SACK（Systematic Generation of Function Substitution Attacks Against Control-Flow Integrity），一种系统化生成函数替换攻击的方法，旨在绕过控制流完整性（CFI）保护机制。CFI 通过限制程序执行路径为预期合法路径来防御控制流劫持攻击，但近年研究表明攻击者仍可通过合法间接调用函数来绕过 CFI，例如通过替换函数指针或虚函数表。SACK 自动分析目标二进制程序，识别可被利用的合法间接调用点，并生成能够将控制流转移到攻击者选定函数的输入。该方法利用污点分析和符号执行技术，在 CFI 策略允许的范围内构造满足条件的函数替换 payload，从而实现对程序行为的恶意篡改。实验在多个真实世界程序（如 Web 服务器、文本编辑器等）上进行，证明了 SACK 能够有效生成绕过现有 CFI 实现的攻击，并揭示了当前 CFI 策略在细粒度上的不足。

💡 推荐理由: 揭示现有 CFI 实现的盲区，为防御方改进 CFI 策略提供攻击面视角，推动更精细的控制流防护设计。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Omar Abusabha, Jiyong Uhm, Tamer Abuhmed, Hyungjoon Koo

该论文深入研究了函数内联（function inlining）对基于机器学习的二进制分析安全任务的影响。函数内联是编译器优化中常见的技术，但极端内联可能显著改变二进制代码的统计特征，从而影响依赖这些特征的机器学习模型的性能。作者针对五个关键安全任务进行了系统评估：二进制相似性检测（T1）、函数名预测（T2）、恶意软件检测（T3）、恶意软件家族预测（T4）和漏洞检测（T5）。他们构建了包含不同编译配置和极端内联行为的二进制数据集，并复用了TikNib等特征提取管道。实验结果表明，极端内联会导致ML模型的准确率大幅下降，特别是在依赖函数边界和调用图结构的任务中。论文提供了完整的代码、数据集和脚本，以便复现实验。该研究揭示了当前ML驱动的二进制分析工具在面对编译器优化时的脆弱性，为提升其鲁棒性提供了重要见解。

💡 推荐理由: 函数内联是编译器常见优化，但极端内联可破坏ML二进制分析模型的假设，导致安全工具（如漏洞检测、恶意软件识别）性能显著下降。此研究帮助蓝队理解此类工具在真实部署中的局限性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hadjer Benkraouda, Nirav Diwan, Gang Wang 0011

本文研究非标准ARM二进制文件的数据-代码分离问题。传统的二进制分析依赖于标准头部信息来区分代码和数据区域，但非标准或混淆的二进制常常缺失或篡改头部，导致现有方法失效。作者提出了一种基于伪标签的半监督学习方法，通过从二进制文件的结构特征中自动生成伪标签来训练分类器，无需依赖完整头部信息。实验使用真实世界的ARM恶意软件和良性样本，验证了该方法在数据-代码分离任务上的有效性，显著优于基于头部规则的基线方法。该工作为逆向工程、固件分析和恶意软件检测提供了更鲁棒的预处理步骤，特别适用于嵌入式设备和IoT环境中的非标准二进制。

💡 推荐理由: 非标准二进制分析是逆向工程中的实际痛点，该方法无需头部信息即可分离代码与数据，可提升固件分析和恶意软件检测的自动化程度。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jun Yeon Won, Xin Jin, Shiqing Ma, Zhiqiang Lin

该论文提出了 REBENCH，一个用于评估大型语言模型（LLM）在二进制逆向工程任务中性能的标准化基准数据集。当前，LLM 在计算机安全领域，尤其是逆向工程中的函数名恢复、变量名恢复和类型推断等任务上取得了显著进展。然而，由于缺乏标准化的数据集，不同研究使用不同的数据集、预处理流程和评估指标，导致结果难以公平比较，也阻碍了对 LLM 在二进制分析中能力的清晰认识。REBENCH 旨在解决这一问题，它整合了现有多个数据集的超集，包含数亿行源代码以及跨多种架构（如 x86、ARM）和优化级别的多样化二进制文件。该方法基于知识库驱动，通过存储字节级堆栈信息来生成真实标签（ground truth），从而在保持任务难度的同时确保通用适用性。这种设计避免了可能引入偏见的简化，使得跨不同任务的评估更加公平。作为用例，作者使用 REBENCH 测量了多个 LLM 在逆向工程任务上的表现，结果显示在复杂任务上仍存在困难。该基准为研究人员提供了一个统一、可复现的评估平台，有助于推动 LLM 在二进制分析领域的进步。

💡 推荐理由: REBENCH 填补了 LLM 在二进制逆向工程评估中缺乏标准化基准的空白，使得不同方法之间可以公平比较，有助于社区准确理解当前 LLM 的能力边界和瓶颈。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#binary-analysis

SymLM: Predicting Function Names in Stripped Binaries via Context-Sensitive Execution-Aware Code Embeddings.

Hunting the Haunter - Efficient Relational Symbolic Execution for Spectre with Haunted RelSE.

AI-Augmented Static Analysis: Bridging Heuristics and Completeness for Practical Reverse Engineering.

Needles at Scale: LLM-Assisted Target Selection for Windows Vulnerability Research

Refining Indirect Call Targets at the Binary Level.

ASSEMBLAGE-DEEPHISTORY: A Cross-Build Binary Dataset with Temporal Coverage

PalmTree: Learning an Assembly Language Model for Instruction Embedding.

Veritas: A Semantically Grounded Agentic Framework for Memory Corruption Vulnerability Detection in Binaries

Agentic Vulnerability Reasoning on Windows COM Binaries

BINALIGNER: Aligning Binary Code for Cross-Compilation Environment Diffing.

SACK: Systematic Generation of Function Substitution Attacks Against Control-Flow Integrity.

A Deep Dive into Function Inlining and its Security Implications for ML-based Binary Analysis.

You Can't Judge a Binary by Its Header: Data-Code Separation for Non-Standard ARM Binaries Using Pseudo Labels.

REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)