#grammar-aware 主题 - Cyber Security Daily Radar

👥 作者: Kunpeng Zhang, Zongjie Li, Daoyuan Wu, Shuai Wang 0011, Xin Xia 0001

本文提出了一种名为 G2FUZZ 的新方法，旨在实现对非文本输入（如图像、视频、PDF 文件）的语法感知模糊测试。传统上，大型语言模型（LLM）擅长生成符合语法的文本和代码，但生成非文本输出却成本高昂且能力有限。G2FUZZ 利用 LLM 合成和变异输入生成器（以 Python 脚本形式），这些生成器能生成符合给定输入格式语法的非文本数据，然后由传统模糊器（如 AFL++）进一步变异这些数据以有效探索程序输入空间。该方法采用混合策略，结合 LLM 驱动的全局搜索和工业级模糊器的局部搜索。LLM 在合成和变异输入生成器方面表现出色，有助于跳出局部最优，从而实现与变异模糊器的协同效应；同时，LLM 仅在必要时被调用，显著降低了使用成本。作者在 TIFF 图像、MP4 音频和 PDF 文件等多种输入格式上评估了 G2FUZZ，在 UNIFUZZ、FuzzBench 和 MAGMA 三个平台上，与 AFL++、Fuzztruction 和 FormatFuzzer 等最先进工具相比，G2FUZZ 在代码覆盖率和漏洞发现方面均表现更优。该研究为将 LLM 应用于非文本输入的模糊测试提供了低成本、高效率的解决方案。

💡 推荐理由: 首次将 LLM 用于非文本输入的语法感知模糊测试，提出混合搜索策略，显著提升代码覆盖率和漏洞发现能力，且成本可控。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#grammar-aware

Low-Cost and Comprehensive Non-textual Input Fuzzing with LLM-Synthesized Input Generators.