#binary-analysis

共收录 10 条相关安全情报。

← 返回所有主题
👥 作者: Xuezixiang Li, Yu Qu, Heng Yin 0001

本文提出了一种名为 PalmTree 的汇编语言模型,用于生成通用指令嵌入。传统的指令嵌入方法未能充分捕捉反汇编代码的独特特性,例如忽略指令内部的复杂结构(如操作码、操作数、寻址模式等),并且主要依赖控制流作为上下文信息,而控制流容易受到编译器优化影响,导致噪声大、不稳定。为了克服这些问题,PalmTree 采用自监督预训练方式,在大规模无标签二进制语料库上学习,通过三个预训练任务来捕获汇编语言的不同特征:掩码指令建模(预测被遮盖的标记)、指令内结构建模(学习操作码与操作数之间的关系)、以及指令间关系建模(利用控制流和数据流中的上下文关系)。这些任务使得模型能够生成高质量、通用且鲁棒的指令嵌入向量。作者进行了内在评估(如嵌入相似性、聚类质量)和外在评估(应用于函数边界检测、二进制代码搜索、函数原型推断、值集分析等下游任务),实验结果表明 PalmTree 在内在指标上表现最佳,并且在所有下游任务中均优于其他指令嵌入方案。该研究为深度学习在二进制分析中的应用提供了更有效的指令表示方法,有助于提升相关工具的准确性和泛化能力。

💡 推荐理由: 指令嵌入是许多二进制分析任务(如逆向工程、漏洞挖掘、恶意代码检测)的基础。PalmTree 提供了一种更准确、更鲁棒的通用指令表示方法,有望提升相关工具的精度和自动化程度。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xinran Zheng, Alfredo Pesoli, Marco Valleri, Suman Jana, Lorenzo Cavallaro

本文提出 Veritas,一个基于语义的二进制内存破坏漏洞检测框架。针对剥离二进制文件中恢复对象语义、跨过程传播和可行触发条件的难点,Veritas 结合了三个关键组件:首先,一个基于 RetDec 提升的 LLVM IR 的静态切片器,重构包括 def-use、调用、返回、全局变量和指针操作在内的值流关系,生成紧凑的、带有证据支持的流对象;其次,一个双视角大语言模型检测器,通过反编译的 C 代码和精选的 LLVM IR 分步推理,关注控制流、边界和对象对应关系,避免全局传播;最后,一个多智能体验证器,通过引导式调试、断点检查和内存检查预言机来确认或拒绝候选漏洞。Veritas 实现为模块化流水线,在真实世界二进制漏洞基准上评估,达到 90% 的召回率。在误报评估中,对 623 个检测候选进行穷举验证和人工审计,穷举部分无假阳性,额外审计确认两个假阳性。实际应用中,Veritas 发现了一个此前未知的 Apple 漏洞并获得 CVE。该工作表明语义基础化作为实用二进制漏洞检测的操作设计原则的可行性。

💡 推荐理由: 二进制漏洞检测是安全分析的难点,Veritas 通过结合静态分析和 LLM 推理,大幅提升检测准确率并发现真实 CVE,为自动化二进制安全分析提供了可落地方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.6
Conf: 50%
👥 作者: Hwiwon Lee, Jongseong Kim, Lingming Zhang

本文提出 SLYP,一种端到端智能体管道,用于在 Windows 组件对象模型(COM)二进制文件中发现竞争条件漏洞并生成经调试器验证的利用证明(PoC)。COM 服务以高权限运行且对认证用户广泛可用,其中的竞争条件是本地权限提升的关键攻击面。SLYP 将二进制探索、COM 检查和动态调试封装为可重用的工具接口,使智能体能够获取静态上下文、COM 激活元数据和调试器反馈,从而从漏洞发现过渡到可验证的 PoC 生成。在包含 20 个 COM 对象、40 个漏洞案例的基准测试中,SLYP 的 F1 值达到 0.973,比生产级编码智能体最高提升 0.208,比最先进的静态分析器在漏洞发现上提升 3.3 倍。在 PoC 生成方面,生产级编码智能体在默认配置(无 COM 检查和动态调试工具)下几乎无法验证任何案例,而 SLYP 的交互式工具集使其在最强配置下能够自主合成 67.5% 案例的有效 PoC。在真实生产 Windows 服务中部署后,SLYP 发现了 9 个 COM 服务中的 28 个先前未知漏洞,全部得到微软安全响应中心(MSRC)确认,并分配了 16 个 CVE 和 14 万美元奖金。此外,SLYP 的设计包含可泛化的二进制分析和调试接口,可轻松应用于其他商业现成(COTS)二进制文件。该研究展示了基于智能体的方法在复杂二进制漏洞挖掘中的巨大潜力,将大型语言模型与专用工具结合,实现了从发现到 PoC 验证的全自动化。

💡 推荐理由: SLYP 首次证明基于 LLM 的智能体能自主发现并验证 Windows COM 二进制中的真实竞争条件漏洞,获得 MSRC 确认和奖金,为二进制漏洞自动化挖掘开辟了新范式。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yiran Zhu, Tong Tang, Jie Wan, Ziqi Yang, Zhenguang Liu, Lorenzo Cavallaro

本文提出了一种名为 BINALIGNER 的二进制差异分析方法,旨在解决跨编译环境(如不同版本、编译器、优化级别、架构)下二进制代码比较的难题。现有方法通常基于基本块的相似度进行匹配,在跨编译环境中效果不佳且灵活性差。BINALIGNER 的核心创新包括:1) 采用条件松弛策略,通过放宽匹配条件来寻找候选子图对,从而减少误匹配和漏匹配;2) 使用与指令无关的基本块特征(如基于数据流和控制流的特征)生成子图嵌入,以支持跨编译环境的灵活比较。作者在四个跨编译环境场景(跨版本、跨编译器、跨优化级别、跨架构)上进行了实验,结果显示 BINALIGNER 在大多数场景下显著优于现有方法,尤其在跨架构场景和多组合场景中,F1 分数平均比基线高 65%。此外,通过两个真实漏洞(CVE 案例)及其补丁的案例研究,验证了 BINALIGNER 在漏洞检测和补丁分析中的实用性。该研究为二进制安全分析领域提供了一种高效、鲁棒的差异分析工具,适用于漏洞发现、恶意软件分析和代码复用检测等场景。

💡 推荐理由: 二进制差异分析是漏洞检测和补丁分析的关键技术。BINALIGNER 显著提升了跨编译环境下的匹配精度,有助于安全工程师更准确地发现跨平台漏洞和进行逆向工程。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhechang Zhang, Hengkai Ye, Song Liu, Hong Hu 0004

本文提出 SACK(Systematic Generation of Function Substitution Attacks Against Control-Flow Integrity),一种系统化生成函数替换攻击的方法,旨在绕过控制流完整性(CFI)保护机制。CFI 通过限制程序执行路径为预期合法路径来防御控制流劫持攻击,但近年研究表明攻击者仍可通过合法间接调用函数来绕过 CFI,例如通过替换函数指针或虚函数表。SACK 自动分析目标二进制程序,识别可被利用的合法间接调用点,并生成能够将控制流转移到攻击者选定函数的输入。该方法利用污点分析和符号执行技术,在 CFI 策略允许的范围内构造满足条件的函数替换 payload,从而实现对程序行为的恶意篡改。实验在多个真实世界程序(如 Web 服务器、文本编辑器等)上进行,证明了 SACK 能够有效生成绕过现有 CFI 实现的攻击,并揭示了当前 CFI 策略在细粒度上的不足。

💡 推荐理由: 揭示现有 CFI 实现的盲区,为防御方改进 CFI 策略提供攻击面视角,推动更精细的控制流防护设计。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Luke Dramko, Claire Le Goues, Edward J. Schwartz

本文提出了一种名为 Idioms 的轻量级框架,旨在通过利用良好定义的类型(well-defined types)显著加速局部神经反编译(local neural decompilation)的性能。神经反编译通常依赖于大规模神经网络来将二进制代码还原为高级语言,但现有方法在处理复杂类型信息时效率低下,且难以保证语义保真。Idioms 框架的核心思想是引入“习语”(idioms)——即频繁出现的代码模式及其对应的类型约束,作为先验知识来引导神经网络的解码过程。具体而言,该框架首先从训练语料中自动挖掘常见的类型化代码片段,将其编码为可重用的模板;然后在反编译阶段,利用这些模板对神经网络的输出进行约束和修正,从而减少搜索空间并提高类型恢复的准确性。实验在多个基准数据集(如 SPEC CPU 2017 和真实世界二进制文件)上进行,结果表明:与基线方法(如直接使用 Transformer 解码)相比,Idioms 在反编译准确率上提升了 12-18%,同时推理速度加快约 3 倍。此外,该方法对类型错误(如指针类型混淆)的鲁棒性更强,在存在混淆的二进制上表现稳定。主要贡献在于:1)提出了一个结合语法模板和神经网络的混合反编译范式;2)证明了类型化习语在降低反编译歧义中的有效性;3)提供了开源实现和预训练模型。本文对于二进制逆向工程、恶意软件分析和遗留代码理解等场景具有潜在应用价值。

💡 推荐理由: 恶意软件分析中,准确反编译是理解攻击逻辑的关键。本文提出的方法能大幅提升反编译速度和类型恢复准确性,帮助防御者更快地逆向恶意样本、提取 IoC。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Fangzhou Dong, Arvind S. Raj, Efrén López-Morales, Siyu Liu, Yan Shoshitaishvili, Tiffany Bao, Adam Doupé, Muslum Ozgur Ozmen, Ruoyu Wang 0001

本文针对工业控制系统(ICS)中可编程逻辑控制器(PLC)固件存在的“盲目信任”漏洞(Blind-Trust Vulnerabilities)展开研究。这类漏洞源于PLC对来自上游设备(如传感器、人机界面)的输入缺乏充分验证,攻击者可利用该漏洞发送恶意数据导致异常行为。作者提出一种基于状态机恢复的逆向分析方法,从PLC二进制文件中自动提取状态机模型,并识别出其中未经验证的状态转换,从而定位盲目信任漏洞。该方法结合了符号执行、控制流分析和动态切片技术,能够在无需文档或源代码的情况下分析闭源PLC固件。实验选取了多个主流厂商(如罗克韦尔、西门子)的PLC固件作为测试对象,成功恢复了其状态机并发现了多个先前未知的漏洞。这些漏洞可能导致拒绝服务或任意代码执行,且部分被确认为CVE。论文证明了状态机恢复技术在PLC漏洞挖掘中的有效性,为工控安全领域提供了新的分析思路。

💡 推荐理由: PLC是工业控制系统的核心,其漏洞可能引发物理安全事件。本文提出的方法能有效发现闭源固件中的逻辑漏洞,对工业安全防护和固件审计具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Omar Abusabha, Jiyong Uhm, Tamer Abuhmed, Hyungjoon Koo

该论文深入研究了函数内联(function inlining)对基于机器学习的二进制分析安全任务的影响。函数内联是编译器优化中常见的技术,但极端内联可能显著改变二进制代码的统计特征,从而影响依赖这些特征的机器学习模型的性能。作者针对五个关键安全任务进行了系统评估:二进制相似性检测(T1)、函数名预测(T2)、恶意软件检测(T3)、恶意软件家族预测(T4)和漏洞检测(T5)。他们构建了包含不同编译配置和极端内联行为的二进制数据集,并复用了TikNib等特征提取管道。实验结果表明,极端内联会导致ML模型的准确率大幅下降,特别是在依赖函数边界和调用图结构的任务中。论文提供了完整的代码、数据集和脚本,以便复现实验。该研究揭示了当前ML驱动的二进制分析工具在面对编译器优化时的脆弱性,为提升其鲁棒性提供了重要见解。

💡 推荐理由: 函数内联是编译器常见优化,但极端内联可破坏ML二进制分析模型的假设,导致安全工具(如漏洞检测、恶意软件识别)性能显著下降。此研究帮助蓝队理解此类工具在真实部署中的局限性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hadjer Benkraouda, Nirav Diwan, Gang Wang 0011

本文研究非标准ARM二进制文件的数据-代码分离问题。传统的二进制分析依赖于标准头部信息来区分代码和数据区域,但非标准或混淆的二进制常常缺失或篡改头部,导致现有方法失效。作者提出了一种基于伪标签的半监督学习方法,通过从二进制文件的结构特征中自动生成伪标签来训练分类器,无需依赖完整头部信息。实验使用真实世界的ARM恶意软件和良性样本,验证了该方法在数据-代码分离任务上的有效性,显著优于基于头部规则的基线方法。该工作为逆向工程、固件分析和恶意软件检测提供了更鲁棒的预处理步骤,特别适用于嵌入式设备和IoT环境中的非标准二进制。

💡 推荐理由: 非标准二进制分析是逆向工程中的实际痛点,该方法无需头部信息即可分离代码与数据,可提升固件分析和恶意软件检测的自动化程度。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jun Yeon Won, Xin Jin, Shiqing Ma, Zhiqiang Lin

该论文提出了 REBENCH,一个用于评估大型语言模型(LLM)在二进制逆向工程任务中性能的标准化基准数据集。当前,LLM 在计算机安全领域,尤其是逆向工程中的函数名恢复、变量名恢复和类型推断等任务上取得了显著进展。然而,由于缺乏标准化的数据集,不同研究使用不同的数据集、预处理流程和评估指标,导致结果难以公平比较,也阻碍了对 LLM 在二进制分析中能力的清晰认识。REBENCH 旨在解决这一问题,它整合了现有多个数据集的超集,包含数亿行源代码以及跨多种架构(如 x86、ARM)和优化级别的多样化二进制文件。该方法基于知识库驱动,通过存储字节级堆栈信息来生成真实标签(ground truth),从而在保持任务难度的同时确保通用适用性。这种设计避免了可能引入偏见的简化,使得跨不同任务的评估更加公平。作为用例,作者使用 REBENCH 测量了多个 LLM 在逆向工程任务上的表现,结果显示在复杂任务上仍存在困难。该基准为研究人员提供了一个统一、可复现的评估平台,有助于推动 LLM 在二进制分析领域的进步。

💡 推荐理由: REBENCH 填补了 LLM 在二进制逆向工程评估中缺乏标准化基准的空白,使得不同方法之间可以公平比较,有助于社区准确理解当前 LLM 的能力边界和瓶颈。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)