推荐 11.5
Conf: 50%
本文提出了一种名为 IDIOMS 的神经反编译框架,旨在解决传统反编译工具因编译信息丢失而无法恢复变量名、类型名等代码可读性特征的问题。现有神经反编译方法在处理真实代码时存在严重局限,例如无法为用户自定义的复合类型提供类型定义。IDIOMS 通过一种简单且可泛化的方法,对任意大型语言模型(LLM)进行微调,使其成为能够同时生成反编译代码和相应用户自定义类型定义的神经反编译器。此外,作者创建了名为 REALTYPE 的新数据集,其中包含比现有基准更复杂和真实的类型。实验表明,在最具挑战性的现有基准 EXEBENCH 上,IDIOMS 达到了 54.4% 的准确率,优于 LLM4Decompile 的 46.3% 和 Nova 的 37.5%;在 REALTYPE 数据集上,IDIOMS 的性能至少提升 95%。该研究对逆向工程和安全分析领域具有重要价值。
💡 推荐理由: 神经反编译有望大幅提升逆向工程效率,但现有方法无法处理真实代码中的自定义类型。IDIOMS 通过简单有效的微调框架解决了这一痛点,并提供了更高质量的数据集,为安全分析工具的实际落地迈出了关键一步。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)