#decompilation 主题 - Cyber Security Daily Radar

👥 作者: Jens-Rene Giesen, Christian Scholz, Lucas Davi

该论文提出了一种基于语料库驱动的以太坊智能合约反编译方法，名为Code HarvETHter。反编译是以太坊安全分析的关键步骤，因为智能合约通常以字节码形式部署，难以直接分析。现有的反编译工具往往依赖于静态规则或模式匹配，存在精度低、可移植性差等问题。本文的创新点在于利用大规模智能合约字节码语料库来训练或指导反编译过程，从而自动学习字节码与高级语言结构之间的映射关系。该方法首先从公开的区块链数据集中收集大量已验证的智能合约字节码及其对应的源代码（如有），构建配对语料库。然后，设计了一种基于序列到序列学习的神经网络模型（或类似方法），将字节码序列映射为伪源代码。此外，论文还探讨了如何利用控制流和数据流分析来增强反编译结果的语义正确性，例如识别函数边界、变量类型和数据结构。通过在一个包含2000多个真实以太坊智能合约的数据集上进行实验，与现有工具（如Porosity、Vandal、Rattle）相比，Code HarvETHter在函数识别准确率、类型恢复和反编译代码的可读性方面均有显著提升。该研究对于智能合约安全审计、漏洞检测以及恶意合约分析具有潜在价值。

💡 推荐理由: 以太坊智能合约安全事件频发，而反编译是理解恶意或闭源合约的关键。现有反编译工具准确率不足，该论文提出的数据驱动方法有望大幅提升反编译质量，助力安全分析师快速定位漏洞。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Joshua Wiedemeier, Simon Klancher, Joel Flores, Max Zheng, Jaehyun Park, Sang Kil Cha, Kangkook Jee

本论文首次开展了大规模的人类辅助Python反编译实践研究。研究数据来自pylingual.io平台，涉及181,646个PYC二进制文件、9,003个用户提交的修补补丁以及393个经过准确性验证的补丁。论文分析了逆向工程师如何应对不准确的反编译结果，并识别出影响其达成准确反编译的关键因素。此外，作者还通过受控用户实验，将修补不完美Python反编译的技术难度作为独立变量进行考察。研究发现，用户通常需要手动修正反编译器输出的错误，且错误类型复杂多样，包括控制流、变量命名、类型推断等问题。实验结果表明，即使经验丰富的逆向工程师也需要耗费大量精力才能修复反编译输出。该研究为提升反编译工具的性能和用户体验提供了实证依据。

💡 推荐理由: Python反编译的准确性直接影响逆向工程效率，本论文首次提供大规模真实世界数据，揭示用户修补反编译错误的实践模式，对反编译器开发者及安全分析人员具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bercan Turkmen, Vyas Raina

本论文探讨了在缺乏源代码的情况下，利用大语言模型（LLM）对恶意软件进行二进制代码分类的问题。传统方法通常依赖单一反编译器生成的伪C代码作为LLM输入，但反编译器是有损的启发式工具，不同反编译器可能揭示同一二进制文件的不同特征。为此，作者构建了一个包含良性工具和恶意程序的基准测试集，覆盖多种威胁行为。每个样本分别使用Ghidra和RetDec进行编译和反编译，生成匹配的伪C视图。实验采用多个主流LLM家族（如GPT、LLaMA等），结果表明提供两种反编译器视图能够提升恶意类别的F1分数，主要归功于恶意样本召回率的提高。一致性分析进一步显示，Ghidra和RetDec产生的错误部分不同，表明两者提供互补信息。论文核心贡献是提出了一种简单、无需训练的多反编译器提示方法，可有效提升基于LLM的恶意软件分类在实际场景中的性能。

💡 推荐理由: 该方法无需额外训练或修改模型，仅通过输入多个反编译器视图即可提升LLM恶意软件分类的召回率，有助于安全分析师更准确地在海量样本中筛选出恶意程序，降低漏报风险。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kaihua Qin, Dawn Song, Arthur Gervais

智能合约反编译旨在从字节码恢复高级语言源代码，但现有评估方法存在数据集狭窄、指标不一致、语义一致性检查有限等问题。随着大型语言模型（LLMs）开始生成看似合理但语义可能偏离原始合约的Solidity代码，这一问题变得日益重要。本文提出SCDBench，一个基于LLM的智能合约反编译器数据集和评估基准。数据集包含600个真实Solidity合约，配有其字节码输入、真实源代码和可重放的语义检查点。SCDBench通过四个递进阶段评估反编译输出：格式完整性、可编译性、应用程序二进制接口（ABI）恢复以及通过差分重放实现语义一致性。作者在零样本反编译设置下评估了Claude Opus 4.7、GPT-5.3-Codex和GLM-5（包括有无扩展推理的变体）以及零样本编译修复设置。结果表明，前沿LLM通常能生成结构清晰且可编译的Solidity代码，但实现语义一致性仍远未解决：最佳模型仅完美反编译42/600个合约。进一步实验表明，引入同模型编译修复以适度成本显著提升了性能。SCDBench为严格且可重复的评估建立了共同基础，旨在加速开发用于区块链安全与透明性的可靠智能合约反编译器。

💡 推荐理由: 该研究为评估LLM在智能合约反编译任务中的表现提供了标准化基准，填补了现有评估方法的空白，对区块链安全审计、漏洞检测和合约分析具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Alexander Shypula, Osbert Bastani, Edward Schwartz

反编译器是逆向工程中用于从编译后的二进制代码重构源代码的重要工具。然而，由于编译器在将人类可读的代码转换为低级机器码时，会丢失高级语法、标识符和自定义数据类型等信息，因此从编译后的二进制代码中重构源代码是一项具有挑战性的任务。传统的确定性反编译器虽然实用，但在推断惯用语法和标识符名称方面存在困难。生成式AI模型天然适合重构高级语法、标识符和类型，但可能会产生幻觉，生成不正确的编程结构和语义。本文提出了Decaf（DECompilation with Automated Feedback，自动反馈反编译）系统，其核心思想是：不是通过更多数据和更多训练来改进神经反编译器，而是利用编译器反馈通过搜索来大幅提升神经反编译器输出的语义正确性。具体地，Decaf在反编译器生成多个候选代码后，使用编译器对候选代码进行编译并检查是否与原始二进制代码在语义上等价（例如通过比较执行结果或二进制相似性），从而筛选出最符合语义的候选。实验基于ExeBench数据集，在Real -O2优化级别上，Decaf将神经反编译的成功率从26.0%提升至83.9%，且不牺牲与原始源代码的相似性。此外，该自动反馈方法对于较弱的神经反编译模型同样非常有效。该研究为机器学习驱动的反编译提供了新范式，证明了结合编译器反馈和搜索可以显著改善反编译质量，对于逆向工程、恶意软件分析、遗留代码理解等领域具有重要价值。

💡 推荐理由: 该研究通过编译器反馈与搜索机制，显著提升了神经反编译器的语义正确性，解决了传统方法依赖大量训练数据且容易产生幻觉的痛点，为逆向工程、恶意软件分析和二进制漏洞研究提供了更可靠的自动化工具。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhiping Zhou, Xiaohong Li 0001, Ruitao Feng, Yao Zhang 0019, Yuekang Li, Wenbu Feng, Yunqian Wang, Yuqing Li

反编译是将机器码转换为人类可读形式的关键技术，广泛应用于软件安全分析、漏洞挖掘和逆向工程。然而，现有反编译工具生成的代码常存在语义失真，导致可读性和准确性下降。传统方法如变量重命名或结构简化仅能提供局部改进，缺乏对复杂闭源二进制文件中语义错误的系统性检测与纠正能力。本文提出 FidelityGPT 框架，通过结合检索增强生成（RAG）与动态语义强度算法，实现反编译失真的自动检测与修复。FidelityGPT 的核心创新包括：针对闭源场景设计的失真感知提示模板、基于动态语义强度的失真行定位算法、以及通过变量依赖分析缓解长上下文限制的机制。实验基于二进制相似性基准测试中的 620 个函数对展开，结果表明 FidelityGPT 的平均检测准确率达 89%，精确率为 83%。与当前最先进的 DeGPT（修复率 83%，修正修复率 37%）相比，FidelityGPT 分别达到 94% 的修复率和 64% 的修正修复率，显著提升了反编译代码的准确性和可读性。该研究展示了大型语言模型结合检索增强在反编译与逆向工程领域的应用潜力，适用于需要处理复杂闭源二进制文件的安全分析场景。

💡 推荐理由: 反编译是安全分析的基础，FidelityGPT 显著提升了反编译代码的语义准确性，直接帮助安全分析师更高效地理解闭源二进制程序，降低误判风险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Han Dai, Soumyakant Priyadarshan, Abdullah Imran, Ruoyu Wang, Antonio Bianchi

该论文提出了一种名为SCRIBE的实用静态二进制补丁框架，旨在解决在没有源代码或原始工具链时，通过解编译后重编译进行二进制补丁的困难。现有解编译器（如Hex-Rays）输出的代码存在大量语法和语义不准确，导致重编译失败或补丁不正确。SCRIBE采用“二进制感知”重编译方法，从原始二进制中提取信息来修复解编译器输出的语义错误，从而提高重编译成功率和补丁正确性。评估表明，SCRIBE修复了Hex-Rays解编译器产生的约81%的错误函数，并成功为14个真实CVE中的13个生成了补丁，无需访问源代码或手动编辑汇编。用户研究显示，使用SCRIBE的18名参与者补丁成功率为100%，而不用时仅3.7%。此外，三个大型语言模型在SCRIBE框架下均实现了100%的补丁成功率，展示了全自动补丁的潜力。该工作使源码级二进制补丁变得可靠且易用。

💡 推荐理由: 该工作为安全工程师提供了一种无需源码即可对二进制进行可靠补丁的方法，解决了解编译器不准确这一长期痛点，可显著提升漏洞应急响应和遗留系统维护效率。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#decompilation

Poster: Code HarvETHter: Corpus-Driven Decompilation of Ethereum Smart Contracts.

Walking The Last Mile: Studying Decompiler Output Correction in Practice.

Multi-View Decompilation for LLM-Based Malware Classification

SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers

Decaf: Improving Neural Decompilation with Automatic Feedback and Search

FidelityGPT: Correcting Decompilation Distortions with Retrieval Augmented Generation.

SCRIBE: Practical Static Binary Patching via Binary-Aware Recompilation of Decompiled Code