智能合约反编译旨在从字节码恢复高级语言源代码,但现有评估方法存在数据集狭窄、指标不一致、语义一致性检查有限等问题。随着大型语言模型(LLMs)开始生成看似合理但语义可能偏离原始合约的Solidity代码,这一问题变得日益重要。本文提出SCDBench,一个基于LLM的智能合约反编译器数据集和评估基准。数据集包含600个真实Solidity合约,配有其字节码输入、真实源代码和可重放的语义检查点。SCDBench通过四个递进阶段评估反编译输出:格式完整性、可编译性、应用程序二进制接口(ABI)恢复以及通过差分重放实现语义一致性。作者在零样本反编译设置下评估了Claude Opus 4.7、GPT-5.3-Codex和GLM-5(包括有无扩展推理的变体)以及零样本编译修复设置。结果表明,前沿LLM通常能生成结构清晰且可编译的Solidity代码,但实现语义一致性仍远未解决:最佳模型仅完美反编译42/600个合约。进一步实验表明,引入同模型编译修复以适度成本显著提升了性能。SCDBench为严格且可重复的评估建立了共同基础,旨在加速开发用于区块链安全与透明性的可靠智能合约反编译器。
💡 推荐理由: 该研究为评估LLM在智能合约反编译任务中的表现提供了标准化基准,填补了现有评估方法的空白,对区块链安全审计、漏洞检测和合约分析具有重要参考价值。
🎯 建议动作: 研究跟进