#decompilation

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Xiangzhe Xu, Zhuo Zhang 0002, Zian Su, Ziyang Huang 0004, Shiwei Feng 0002, Yapeng Ye, Nan Jiang 0012, Danning Xie, Siyuan Cheng 0005, Lin Tan 0001, Xiangyu Zhang 0001

二进制反编译旨在从可执行文件中恢复源代码形式,在恶意软件分析、漏洞检测和代码加固等安全领域有重要应用。当前反编译面临的一大挑战是变量名的恢复,因为二进制文件在编译过程中会丢失原始符号信息。本文提出一种新颖的方法,利用生成模型(如CodeGemma-2B、CodeLlama-7B和CodeLlama-34B)来恢复变量名,同时通过微调缓解模型自身的偏见。作者构建了原型系统GENNM,使用从反编译函数中微调生成模型,使其能够利用上下文信息——即在查询一个函数时,同时引入该函数的调用者和被调用者名称,从而在模型输入token限制内提供丰富的上下文。此外,GENNM通过将模型输出分布与开发者的符号命名偏好对齐,进一步减轻模型偏见。实验在两个常用数据集上进行,结果显示,GENNM在变量名恢复精度上比当前最优方法提升了5.6到11.4个百分点;在最具挑战性的设置(训练数据中未见真实变量名)下,恢复率从17.3%提升至22.8%,提升幅度达32%。该技术对安全逆向工程师、反编译工具开发者以及需要从二进制中提取语义信息的分析师具有直接价值。

💡 推荐理由: 变量名恢复是二进制反编译的关键瓶颈,GENNM显著提升精度,帮助安全分析师在恶意软件分析、漏洞挖掘等场景中更高效地理解二进制代码。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)