该论文系统性地探讨了固件漏洞研究中语料库构建的科学性问题。作者指出,由于样本获取困难(如专有或加密数据)、内容未知、版权限制等挑战,现有固件语料库在可复现性、代表性和可靠性方面存在严重缺陷。他们首先分析了问题空间,提炼出影响语料库构建的实际二进制分析挑战,并据此推导出一套指导方针,旨在帮助研究人员提升语料库的可复现性和代表性。作者将这些方针应用于44篇顶级会议论文,系统评估了当前科学语料库构建实践,发现相关工作缺乏共同基础,存在方法论问题和文档缺失,导致代表性模糊和可复现性受阻。最后,作者展示了方针的可行性,构建了一个用于大规模Linux固件分析的新语料库LFwC,并分享了丰富的元数据以确保良好可复现性;该语料库经过解包验证、去重、内容识别并提供真实基准,证明了其在研究中的实用性。
💡 推荐理由: 固件漏洞研究依赖于高质量语料库,但现有构建方法不系统、不可复现,严重影响研究结果的可信度。本文首次提出规范化指南,对固件安全社区具有重要参考价值。
🎯 建议动作: 研究跟进