#fuzzing 主题 - Cyber Security Daily Radar

👥 作者: Dimitri Kokkonis, Michaël Marcozzi, Stefano Zacchiroli

该论文针对开源软件供应链中代码级后门注入的威胁提出了一种自动化检测方法 Lily。代码级后门是一种隐蔽的代码改动，通过秘密触发器授予隐藏权限，难以被发现。此前针对广泛使用项目的后门注入尝试（如恶意提交、被篡改的发布包、受污染的第三方依赖）往往仅靠运气和人工审查才被阻止。现有持续集成（CI）流水线无法检测此类攻击，而下游二进制分析工具则需要大量人工分析。Lily 将后门检测机制集成到两个环节：一是 CI 流水线，用于在代码提交阶段阻断恶意提交；二是发布审查流程，用于防止被篡改的发布包或受损依赖进入大型生态系统（如 Linux 发行版）。Lily 有两个核心贡献：第一，它增强了兼容 CI 的模糊测试（fuzzing），能够基于历史和当前软件执行来检测可疑行为的触发器，从而在 CI 和更新验证流程中实现快速且精确的后门检测；第二，它将代码变更分析与模糊测试数据相结合，即使发布更新涉及数百万行代码改动，也能精确地将维护者定位到暴露后门的代码区域。论文还概述了攻击者可能规避 Lily 的五种策略，并评估了相应的防御措施。作者在数百个良性提交/发布和带后门提交/发布的实验表明，Lily 能以较低的误报率实现高检测精度，可靠地识别恶意代码，抵抗对抗性尝试，并且能够阻止真实世界中的后门事件。

💡 推荐理由: 该研究直接回应了软件供应链中后门注入的严峻挑战，提出可集成到 CI 和发布流程的自动化检测方案，能够提升蓝队和开源维护者对恶意提交、篡改发布包和受损依赖的防御能力，具有实际部署价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Lingjing Yu, Jingli Hao, Jun Ma, Yong Sun, Yijun Zhao, Bo Luo

该论文首次系统性地研究了卫星调制解调器的安全性问题。卫星调制解调器是卫星通信网络中的关键组件，尤其是在传统透明中继卫星系统中，它决定了整个通信体制。然而，与通常更孤立、保护更好的卫星本身不同，卫星调制解调器可被攻击者接触且容易遭受低成本攻击，可能成为卫星通信安全链中的薄弱环节。作者首先对商用现货卫星调制解调器进行了物理拆解，系统检查了硬件和软件模块，并对暴露在互联网上的卫星调制解调器进行了测量研究。他们在三个攻击面——卫星通信接口、地面网络接口和硬件——上识别出16个安全漏洞。进一步地，他们引入了AirSecAnalyzer，一种针对调制解调器卫星通信接口的自动化安全分析器/模糊测试器。通过对9个真实卫星调制解调器的全面分析和大量实验，他们报告了利用这些已识别漏洞的18种新型攻击。研究成果为未来卫星调制解调器及卫星通信网络的安全性研究奠定了有价值的 foundation。

💡 推荐理由: 卫星调制解调器是卫星通信的关键环节，但其安全性长期被忽视。该研究首次揭示其脆弱性，对卫星通信安全防御具有奠基性意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yutong Zhou, Fan Yang, Zirui Song, Ke Zhang 0039, Jiongyi Chen, Kehuan Zhang

本文提出 LiftFuzz，一个用于验证二进制提升器正确性的新型框架。二进制提升器将二进制代码翻译为中间表示（IR），广泛应用于逆向工程、二进制安全分析等场景，但其开发过程复杂且易出错。现有验证方法主要关注单条指令的正确性，忽略了指令间的交互，导致难以发现复杂缺陷。LiftFuzz 首次将指令上下文感知的模糊测试引入二进制提升器验证领域。其核心思想是利用汇编语言模型（基于 GPT 架构）学习指令序列的上下文依赖关系，并据此生成多样化的测试用例。具体而言，该模型以连续指令块为输入，预测可能的后续指令序列，从而构造包含指令间交互的代码片段。LiftFuzz 将这些代码片段编译成可执行程序，并在多个目标架构（如 x86-64、ARM64）上运行，比较不同提升器输出的 IR 语义等价性。实验表明，LiftFuzz 在测试效率上显著优于基线方法（仅需基线 1/1000 的测试用例），并在主流提升器中发现了 26 个不一致性缺陷，其中包含一类此前未被报道的缺陷类型（如因寄存器别名处理不当导致的语义错误）。这些缺陷可能导致二进制分析工具产生误判，影响安全应用的可靠性。本文的贡献包括提出了上下文感知的模糊测试框架、首次将语言模型用于测试用例生成，以及实际发现并分类了提升器中的一致性缺陷。适合对二进制分析、软件测试、AI 辅助安全工具开发感兴趣的读者。

💡 推荐理由: 二进制提升器是逆向工程和二进制安全的基础工具，其错误会传导到依赖它的所有上层应用。LiftFuzz 用更少的测试用例发现更多隐藏缺陷，为提升器质量保障提供了新范式，有助于增强整个软件供应链的安全性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Anish Paranjpe, Gang Tan

解析（parsing）在软件项目中无处不在，从小型命令行工具到高安全性的网络客户端，再到大型编译器，都离不开解析器。然而，解析库的实现缺陷可能导致生成不正确的解析器，进而被恶意输入利用，引发系统崩溃或安全漏洞。本文提出了一种轻量级的验证框架Bohemia，旨在帮助解析库开发者将其作为集成测试的工具箱中的一员。该框架基于 Equivalence Modulo Inputs (EMI) 的概念，通过变异输入语法来对解析库进行压力测试。作者在多个采用不同解析算法的解析库上评估了Bohemia，发现了若干缺陷，其中一些已被开发者确认并修复。论文详细阐述了Bohemia的设计原理、实现方式以及实验结果，展示了其在提升解析库鲁棒性方面的潜力。读者可以从中了解一种基于语法变异的解析库测试方法，以及如何利用EMI技术挖掘潜在的解析器缺陷。

💡 推荐理由: 解析库的bug可能导致拒绝服务或远程代码执行，影响大量依赖解析的软件。Bohemia提供了一种自动化的轻量级验证手段，有助于在开发阶段发现并修复这类隐患，提升软件供应链安全。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Gelei Deng, Zhiyi Zhang 0005, Yuekang Li, Yi Liu 0069, Tianwei Zhang 0004, Yang Liu 0003, Guo Yu, Dongjin Wang

本文提出 NAUTILUS，一种自动化检测 RESTful API 漏洞的系统。RESTful API 在现代微服务架构中广泛使用，但其安全测试面临状态依赖、参数组合爆炸等挑战。NAUTILUS 通过解析 API 规范（如 OpenAPI）构建状态机模型，并基于符号执行和模糊测试生成有效测试用例。系统覆盖常见漏洞类型，包括 SQL 注入、路径遍历、参数篡改等。在 GitHub 上的多个真实 API 以及人工构造的基准测试中，NAUTILUS 相比于现有工具（如 RESTler、EvoMaster）发现更多漏洞，且误报率更低。实验证明其能够有效处理复杂状态依赖和深层路径探索。该研究为自动化 API 安全测试提供了新的思路，适合安全工程师和开发者在 CI/CD 流程中集成。

💡 推荐理由: REST API 是现代应用的核心攻击面，手动测试效率低且容易遗漏。NAUTILUS 提供自动化方案，能显著提升漏洞发现效率，降低人工成本。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zheyu Ma, Qiang Liu 0034, Zheming Li, Tingting Yin, Wende Tan, Chao Zhang 0008, Mathias Payer

虚拟设备是hypervisor的重要攻击面，其漏洞可能导致虚拟机逃逸甚至宿主机被攻破。现有模糊测试工具对虚拟设备的fuzzing效率有限，因为它们普遍缺乏对虚拟设备复杂行为的理解。本文提出Truman，一种新颖的通用模糊测试引擎，能够自动从开源操作系统驱动程序中推断依赖关系，构建设备行为模型（DBM），用于指导虚拟设备的模糊测试，无论目标虚拟设备是开源还是闭源。DBM包含消息间依赖、消息内依赖以及细粒度的状态依赖。基于DBM，Truman生成和变异满足依赖关系的高质量种子。在最新版本的hypervisor上评估原型，Truman在19/29个QEMU设备上覆盖率超越现有最先进的fuzzer，在virtio设备上相对Morphuzz获得34%的覆盖率提升。此外，Truman在QEMU、VirtualBox、VMware Workstation Pro和Parallels中发现了54个新bug，其中6个已分配CVE。本文方法适用于hypervisor安全研究人员和模糊测试工具开发者。

💡 推荐理由: 虚拟设备漏洞威胁云基础设施安全，Truman通过自动化模型构建提升fuzzing效率，可系统化发现潜在漏洞，对hypervisor安全性有实际提升。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jianjia Yu, Zhengyu Liu, Ziyang Li, Yu Sun, Yinzhi Cao

Electron是一个广泛用于构建跨平台桌面应用的框架，它基于Web技术，由多个不同权限等级的进程组成，进程间通过消息传递通信。当进程间消息携带攻击者控制的输入时，这些输入可能在进程间传播并最终到达特权API（如命令执行），这种消息传播行为被定义为消息传播漏洞（MPVs）。利用MPV通常需要多步操作，例如先通过消息传递在某个进程中实现任意代码执行，然后利用该进程构造另一条消息在另一个进程中进行命令注入。现有工作主要关注Electron的不安全配置和恶意DOM内容，无法检测或利用需要通过复杂跨进程消息传递触发的漏洞。本文提出Proton，一个用于检测MPV的分段定向模糊测试框架。核心思想是将端到端模糊测试沿着消息传递边界分解为每个进程的分段，每个分段的目标要么是到达当前进程中的sink点，要么是将payload传播到下一个进程以探索另一进程。在后一种情况下，消息种子化下一个分段的语料库。最后，Proton合成每个进程的崩溃输入以验证端到端利用。作者在589个真实Electron应用上评估Proton，发现了23个零日MPV，其中22个导致OS命令执行，涉及GitHub stars超过50k的项目。所有发现已负责任披露，已获得13个确认、11个修复、11个CVE以及来自Vercel的漏洞赏金。

💡 推荐理由: Electron应用广泛，其多进程架构中的消息传播漏洞风险高。Proton首次系统性地检测此类漏洞，并发现大量真实零日漏洞，对保障桌面应用安全具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chenyang Lyu, Shouling Ji, Xuhong Zhang 0002, Hong Liang, Binbin Zhao, Kangjie Lu, Raheem Beyah

基于突变的模糊测试是发现软件漏洞的主流方法之一，但传统突变过程的高随机性导致效率低下。近年来，覆盖引导的模糊测试通过采用自适应突变策略或集成约束求解技术，在一定程度上提升了对触发独特路径和崩溃的测试用例的探索能力。然而，现有方法普遍缺乏对模糊测试历史中关键突变策略的细粒度重用，即未能有效利用不同模糊测试试验之间的历史信息。本文发现，历史测试用例中包含了导致发现独特路径和崩溃的突变策略的丰富知识，这些突变策略中隐式携带的部分路径约束解可以被重用，以加速发现具有相似部分路径约束的新路径和崩溃。基于这一发现，作者提出了一种历史驱动的突变方法（EMS），通过分析历史突变策略并重用其中的部分路径约束解，指导后续测试用例的生成，从而提升覆盖引导模糊测试的效率。实验结果表明，EMS在多个真实程序上能够显著提高代码覆盖率和漏洞发现速度。该研究为模糊测试领域提供了一种新的历史利用视角，适合安全研究者和模糊测试工具开发者阅读。

💡 推荐理由: 该研究提出了一种利用模糊测试历史信息提升漏洞发现效率的新方法，有助于安全团队更快地发现软件漏洞，降低人工分析成本。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Youkun Shi, Yuan Zhang 0009, Tianhao Bai, Feng Xue, Jiarun Dai, Fengyu Liu, Lei Zhang 0096, Xiapu Luo, Min Yang 0002

本文提出了一种名为XSSky的新型XSS漏洞检测方法，其核心思想是局部路径持久化模糊测试（Local Path-Persistent Fuzzing）。传统的XSS检测技术通常依赖于静态分析或通用模糊测试，但在覆盖率、效率以及误报率方面存在局限。XSSky通过记录和重用程序执行过程中的局部路径信息，实现更智能的测试用例生成，从而更有效地触发和识别跨站脚本漏洞。该方法首先对目标Web应用进行轻量级预分析，提取可能受XSS影响的代码路径；然后在模糊测试阶段，针对这些局部路径生成并变异payload，并确保持久化地执行关键路径上的测试。实验结果显示，XSSky在多个开源和真实世界Web应用中检测到了大量新漏洞，相比现有工具（如AFL、Domato等）在漏洞发现数量、代码覆盖率以及时间效率上均有显著提升。该研究为自动化XSS检测提供了新的思路，尤其适用于复杂前端框架构建的单页应用。

💡 推荐理由: XSS仍是Web安全中最普遍且危害最大的漏洞之一，本文提出的基于局部路径持久化模糊测试的方法能显著提升检测效率与覆盖率，对自动漏洞挖掘和防御有重要实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Fabian Fleischer 0001, Cen Zhang, Joonun Jang, Jeongin Cho, Meng Xu, Taesoo Kim

该论文提出了一个名为 GONDAR 的 sink 中心化模糊测试框架，用于在 Java 应用程序中系统性地发现安全漏洞。现有的模糊测试工具往往忽略了安全敏感 API（sink）所携带的漏洞特定知识，例如到达 sink 的程序约束和触发漏洞的利用条件。GONDAR 首先通过 CWE 特定扫描结合 LLM 辅助的静态过滤来识别可达且可利用的 sink 调用点。然后，它部署两个专门智能体：探索智能体通过迭代求解路径约束生成输入以到达目标调用点，利用智能体通过推理并满足漏洞触发条件来合成利用验证代码。这两个智能体与覆盖引导的模糊测试器协同工作，持续交换种子和运行时反馈。在真实 Java 基准测试中，GONDAR 发现的漏洞数量是当前最先进的 Java 模糊测试器 Jazzer 的四倍。此外，早期版本的 GONDAR 助力 Team Atlanta 在 DARPA AI Cyber Challenge 中获得第一名，并且已集成到 Linux 基金会 OpenSSF 的沙箱项目 OSS-CRS 中，用于分析开源 Java 项目，目前已发现一个零日漏洞。

💡 推荐理由: 该研究提出了一种将 LLM 与模糊测试深度融合的新范式，显著提升了 Java 漏洞发现效率，并已在实战中验证其有效性（发现零日漏洞）。对安全研究者和工具开发者具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Georgios C. Androutsopoulos, Antonio Bianchi

本文提出 deepSURF，一个结合静态分析与大语言模型（LLM）引导的模糊测试 harness 生成工具，专门用于检测 Rust 库中 unsafe 代码的内存安全漏洞。Rust 语言虽然默认保证内存安全，但允许通过 unsafe 代码块绕过安全保证，若使用不当会引入内存安全漏洞。现有工具存在检测能力有限、无法处理 Rust 特有类型（如泛型、trait）或依赖大量人工干预等问题。deepSURF 的贡献包括：1）提出一种处理泛型的新方法，通过自定义类型替换泛型参数，并为所需 trait 生成定制实现，使模糊测试器能够模拟用户定义的行为。2）利用 LLM 动态增强模糊测试 harness，自动探索复杂的 API 交互序列，显著提升暴露内存安全漏洞的概率。3）在 63 个真实世界 Rust crates 上进行评估，成功重新发现了 30 个已知内存安全 bug，并新发现了 12 个未知漏洞（其中 11 个已分配 RustSec ID，3 个已修复）。与现有最先进工具相比，deepSURF 在漏洞发现数量和代码覆盖率上均有明显提升。该工具的核心 pipeline 包括：静态分析提取函数签名和类型信息 → LLM 建议 harness 骨架 → 基于类型替换生成可编译 harness → 执行模糊测试 → 根据反馈循环迭代优化 harness。实验表明，LLM 增强的 harness 能有效触发更深入的代码路径，并检测到传统方法遗漏的缺陷。

💡 推荐理由: Rust 的 unsafe 代码是内存安全漏洞的主要来源，而现有检测工具能力不足。deepSURF 利用 LLM 自动生成高质量模糊测试 harness，大幅提升漏洞发现效率，为 Rust 生态系统的安全加固提供了实用手段。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sergej Dechand, Tobias Wienand, Fabian Meumertzheim, Peter Samarin, Simon Resch, Khaled Yakdan, Thorsten Holz, Flavio Toffalini

本文介绍了Jazzer，一种针对Java生态系统的覆盖率引导的模糊测试工具，专门用于发现语义漏洞。与传统的仅关注内存安全错误的模糊测试不同，Jazzer通过结合覆盖率反馈和语义分析，能够检测更高级别的逻辑缺陷，例如不正确的状态转换、业务逻辑错误以及违反隐式假设的漏洞。该方法利用Java的字节码插桩技术收集覆盖率信息，并集成了自定义的种子生成和突变策略，以提高对复杂语义漏洞的发现效率。实验在多个流行Java库（如Apache Commons、Google Guava等）上进行，结果表明Jazzer成功发现了多个先前未知的语义漏洞，且误报率较低。该工作填补了Java生态系统中高级漏洞模糊测试的空白，为安全测试人员提供了新的有效工具。

💡 推荐理由: 语义漏洞在Java应用中普遍且难以通过传统方法检测，Jazzer提供了一种自动化发现手段，能显著提升Java软件供应链的安全性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Justin Applegate, Andreas Kellas

Python原生的序列化协议pickle虽然功能强大，但存在已知的安全风险，尤其是在传输不可信数据或保存机器学习模型时。为了缓解风险，开发者通常会在反序列化时限制导入的模块，或使用静态和动态分析工具检测恶意负载。然而，这些方法依赖于对Pickle虚拟机（PVM）操作码的准确解释，而Python的三种原生PVM实现（pickle、cPickle、_pickle等）之间存在行为差异，可能导致误判或漏检。为了高效、可扩展地发现这些差异，本文提出了PickleFuzzer，一种基于生成的定制化模糊测试工具。PickleFuzzer根据自定义语法生成pickle对象，然后分别传递给不同实现，通过比较异常抛出和关键内部状态的变化来检测不一致性。它不需要规范的预言机，而是通过差分测试比较执行行为。实验发现了14个新的不一致性，其中4个是严重的安全缺陷，可绕过Hugging Face等模型托管平台使用的安全扫描工具。作者已向Python软件基金会报告了所有发现，并通过漏洞赏金平台获得750美元奖励。研究表明差分测试是发现pickle实现中安全相关差异的有效方法，为未来更定向的模糊测试提供了方向。

💡 推荐理由: pickle在AI/ML生态中广泛使用，其实现差异可能被攻击者利用绕过安全扫描，导致反序列化攻击。该研究直接揭示了现有防御的盲区，对模型托管和依赖pickle的框架有重要安全参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yiyang Chen, Nuoqi Gui, Long Wang, Longfei Chen, Xuanqing Shi, Xi Cao, Chao Zhang 0008

定向模糊测试（Directed Fuzzing）旨在高效地到达程序中的特定目标位置（如潜在漏洞点），但现有方法往往忽略触发条件（Triggering Conditions），即目标代码被执行所需的特定输入特征或程序状态，导致难以在复杂条件下触发深层漏洞。本文提出 TRIGFUZZ，一种触发条件引导的定向模糊测试框架。首先，通过静态分析（符号执行与约束求解）从目标代码及其上下文提取触发条件，包括输入格式、数据依赖、路径约束等。其次，设计了一个反馈驱动的输入生成机制，动态地构造满足触发条件的测试用例，并利用种子调度策略优先变异能逼近这些条件的输入。最后，在多个真实世界程序（如 libxml2, libpng, OpenSSL 等）上评估，与现有定向模糊测试工具（如 AFLGo, Hawkeye）相比，TRIGFUZZ 在到达目标位置的速度和成功率上均有显著提升，并能发现多个已知和未知的崩溃。实验证明，显式建模触发条件能有效指导模糊器绕过障碍，提高漏洞发现效率。

💡 推荐理由: 该研究提升了定向模糊测试在复杂触发条件下的有效性，有助于安全工程师更高效地挖掘需要特定输入状态才能触发的深层漏洞。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nathaniel Bennett, Tyler Tucker, Carson Stillman, William Enck, Patrick Traynor, Kevin R. B. Butler

本文提出了 Fizzle，一个用于网络协议模糊测试的确定性且可复现的框架。网络模糊测试在发现协议实现中的漏洞方面具有重要作用，但传统模糊测试工具由于随机化和非确定性执行，导致测试结果难以复现。Fizzle 通过引入确定性调度和状态记录机制，确保每次运行产生完全相同的输入序列和代码覆盖率，从而为漏洞验证和回归测试提供可靠基础。该框架支持多种网络协议的自定义变异策略，并集成了轻量级模拟器以消除环境依赖。实验表明，Fizzle 在多个真实世界协议实现（如 HTTP、DNS）上能够持续复现已知漏洞，并与现有模糊测试工具相比，运行速度损失控制在 10% 以内。主要贡献包括：1）定义确定性模糊测试的规范；2）实现可复现的变异引擎；3）开源框架以促进社区协作。

💡 推荐理由: 对于安全测试人员，可复现的模糊测试结果能显著提升漏洞验证与响应效率，减少因环境或随机性导致的误报。

🎯 建议动作: 建议安全团队评估并测试该框架在内部协议测试中的适用性，尤其是对复现性有严格要求的场景。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Fatemeh Moradihaghighi, Zihao Zhan, Yanan Guo, Ziming Zhao, Mashrur Chowdhury, Zhenkai Zhang

该论文提出了一种名为Fuzz'EMup的方法，利用电磁（EM）侧信道辐射来指导纯黑盒环境下的嵌入式固件模糊测试。随着物联网和嵌入式设备在众多领域的普及，固件安全变得至关重要。模糊测试是一种系统化发现漏洞的有效手段，而覆盖率反馈能通过引导探索提升其效果。然而，许多设备由于固件提取、插桩或精确模拟的困难，导致覆盖率信息无法获取，测试者只能进行低效的黑盒模糊测试。论文的核心挑战在于如何将原始EM测量值转化为可靠的引导信号：EM迹线噪声大，时序抖动会导致不同迹线中的对应特征在时间上偏移。作者通过结合基于活动与空闲信号对比的频带选择（activity-to-idle signal contrast）和动态时间规整（dynamic time warping）来对齐每个输入的迹线并检测持续偏差，同时通过将执行组织成基于发散时间的树形结构来保持可扩展性。在四个真实固件目标上的评估表明，EM衍生的反馈增强了路径探索，相比无引导的模糊测试实现了更高的代码覆盖率。该方法为无法获取内部状态信息的黑盒固件测试提供了新的解决方案。

💡 推荐理由: 对于安全从业者，该方法在无法获取固件源码或进行插桩的嵌入式设备上，开创了利用侧信道信号提升模糊测试效率的实用路径，有望发现传统黑盒测试难以触及的漏洞。

🎯 建议动作: 研究跟进，评估该技术对自身负责的嵌入式设备安全测试流程的潜在改进。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Moritz Schloegel, Nils Bars, Nico Schiller, Lukas Bernhard, Tobias Scharnowski, Addison Crump, Arash Ale Ebrahim, Nicolai Bissantz, Marius Muench, Thorsten Holz

过去十年中，模糊测试已被证明是一种高效的软件漏洞发现方法。自AFL引入轻量级覆盖率反馈这一开创性概念以来，模糊测试领域涌现了大量科学工作，提出了新技术、改进了现有策略的方法论方面，或将现有方法移植到新领域。所有这些工作都需要通过展示其解决问题的适用性、测量性能，并通过深入的经验评估证明其相对于现有工作的优越性。然而，模糊测试对其目标、环境和条件高度敏感，例如测试过程中的随机性。毕竟，依赖随机性是模糊测试的核心原则之一，控制着模糊器行为的许多方面。结合往往难以控制的环境，实验的可重复性成为一个关键问题，需要谨慎的评估设计。为了应对这些有效性威胁，一些工作，尤其是Klees等人的《Evaluating Fuzz Testing》，已经概述了如何精心设计评估设置，但其建议在实践中被采纳的程度仍不清楚。本文系统分析了2018年至2023年间顶级会议上发表的150篇模糊测试论文的评估方法。我们研究了现有指南的实施情况，并观察到潜在的不足和陷阱。我们发现，现有指南在统计检验方面被惊人地忽视，且模糊测试评估中存在系统性错误。例如，在调查报告的漏洞时，我们发现对真实世界软件中漏洞的搜索导致了作者请求并接收了质量可疑的CVE。将我们的文献分析扩展到实践领域，我们尝试复现八篇模糊测试论文的声称。这些案例研究使我们能够评估模糊测试研究的实际可重复性，并识别评估设计中的典型陷阱。不幸的是，我们的复现结果揭示了所研究论文中的若干缺陷，我们无法完全支持和复现相应的声称。为帮助模糊测试领域迈向科学上可重复的评估策略，我们提出了更新后的评估指南，供未来工作遵循。

💡 推荐理由: 模糊测试评估的严谨性直接影响科研成果的可信度和实际应用价值。本文揭示了当前评估实践中的系统性缺陷，并提出改进指南，对模糊测试研究人员和从业人员均有重要参考意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kaizheng Liu, Ming Yang 0001, Zhen Ling 0001, Yue Zhang 0025, Chongqing Lei, Junzhou Luo, Xinwen Fu

该论文提出了一种名为RIoTFuzzer的新型黑盒模糊测试方法，旨在远程发现物联网设备漏洞。由于IoT系统架构和外设的多样性，黑盒模糊测试是发现漏洞的首选方案，但现有工具依赖伴侣应用生成有效测试包，却面临无法绕过云服务器端验证以及仅关注Android伴侣应用中Java组件而忽略非Java组件（如基于JavaScript的小程序）的局限性。RIoTFuzzer专门针对由一体化应用（All-in-one Apps）中JavaScript小程序驱动的IoT设备，通过文档式控制命令提取、混合分析变异点识别以及侧信道引导的模糊测试三大技术，实现对IoT设备的远程模糊测试。文档式控制命令提取从伴侣应用的UI文档中解析控制命令；混合分析结合静态与动态分析识别可变异点；侧信道反馈（如设备响应时间）引导模糊测试方向，提高效率。作者在主流平台的27款IoT设备上应用RIoTFuzzer，发现了11个漏洞，均获得厂商确认，其中8个漏洞已确认并分配了4个CVE编号。实验表明，侧信道引导模糊测试平均提升76.62%的测试包发送效率，最高提升362.62%。该方法显著增强了物联网设备漏洞挖掘的覆盖面和有效性。

💡 推荐理由: 该方法解决了现有黑盒模糊测试工具无法绕过云验证和忽视非Java组件的痛点，大幅提升了IoT设备远程漏洞发现效率，对IoT安全测试具有实用价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sergej Schumilo, Cornelius Aschermann, Ali Abbasi 0002, Simon Wörner, Thorsten Holz

该论文提出并实现了 NYX，一种针对超管理器（Hypervisor/VMM）的高性能、覆盖引导的模糊测试工具。超管理器负责隔离同一物理机上不同虚拟机（VM）的安全边界，恶意用户若能在云 VM 上运行自己的内核，则可攻击大量攻击面，一旦利用成功将完全控制宿主机的所有 VM。因此，高效检测超管理器漏洞对现代云基础设施安全至关重要。现有研究表明，盲目模糊测试因测试吞吐量极高而成为最有效的方法。然而，NYX 通过引入快速快照恢复机制，实现了每秒数千次的重载被测系统，显著提升了性能。此外，作者提出了一种基于自定义字节码程序（编码为有向无环图 DAG）和仿射类型（affine types）的新型变异引擎，能够灵活表达复杂交互。评估结果显示，虽然 NYX 的吞吐量低于最先进的盲目模糊测试器，但在简单目标上表现相当，仅需稍长时间达到相同覆盖率。对于复杂设备，NYX 显著优于现有工作。更重要的是，NYX 发现了大量新漏洞：总计 44 个新 bug，其中 22 个已申请 CVE。实验证明覆盖引导的价值巨大，即使盲目模糊测试器可能更快。该研究适合超管理器开发者、云安全工程师、模糊测试研究人员阅读。

💡 推荐理由: 超管理器漏洞可导致云平台完全沦陷，NYX 以创新的快照恢复和基于仿射类型的变异引擎，大幅提升了复杂设备的漏洞发现能力，对云基础设施安全防御具有重要指导意义。

🎯 建议动作: 研究跟进：评估 NYX 在自身超管理器测试中的适用性，并考虑集成其覆盖引导与变异引擎技术。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiameng Shi, Wenqiang Li, Wenwen Wang 0001, Le Guan

该论文提出了一种名为 IPEA 的非侵入式动态固件测试框架，专门针对深度嵌入式设备（如基于微控制器 MCU 的物联网设备）的固件测试挑战。这类设备通常资源受限，运行环境与通用计算机差异巨大，导致现有动态测试技术难以直接应用。IPEA 的核心洞察是利用微控制器设备在固件开发阶段的独特位置：开发者通常需要借助功能强大的工程工作站来编程和调试目标设备。因此，IPEA 将资源密集型分析任务从微控制器卸载到工作站，仅在固件中保留轻量级的“探针”（needle probes）来采集内部执行信息，而不进行本地处理。这种解耦设计使得分析的性能开销被显著降低。论文还基于 IPEA 框架实现了两个具体工具：基于指针能力（pointer capability）的消毒器 IPEA-San 和灰盒模糊测试器 IPEA-Fuzz。IPEA-San 用于检测内存安全错误，通过与移植到微控制器的 AddressSanitizer 对比，在真实固件上内存开销降低了 62.75%，且检测精度更高。IPEA-Fuzz 结合 IPEA-San 进行模糊测试，在流行的 IoT 库（3个）和外设驱动代码（4个）中发现了 7 个零日漏洞。该工作展示了非侵入式动态分析在嵌入式固件测试中的巨大潜力，为安全研究人员和固件开发者提供了一种高效、低成本的漏洞发现方法。

💡 推荐理由: 嵌入式固件漏洞难以通过传统动态测试发现，而该框架通过将分析任务卸载到工作站，大幅降低了资源消耗，使得在受限设备上进行高效漏洞挖掘成为可能，填补了物联网安全测试的重要空白。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Tae Eun Kim, Jaeseung Choi 0002, Kihong Heo, Sang Kil Cha

本文提出了一种名为DAFL的定向灰盒模糊测试方法，旨在通过数据依赖关系引导模糊测试过程，提高对特定目标代码区域的覆盖率和漏洞发现效率。传统的灰盒模糊测试通常依靠覆盖率反馈来探索程序，但在定向场景下（如针对特定补丁或关键函数），随机探索效率低下。DAFL利用静态分析构建程序的数据依赖图，并设计了一种新的种子优先级策略，优先选择能够更快触发目标位置依赖链的输入。同时，DAFL结合了符号执行和约束求解技术，以生成能够满足依赖条件的测试用例。实验在多个真实世界程序上进行了评估，包括libpng、libjpeg等，结果表明DAFL在到达指定目标代码位置和发现相关漏洞方面，相比现有定向模糊测试工具（如AFLGo、Hawkeye）具有显著优势，平均加速比达到2-3倍。此外，DAFL还成功发现了多个未知漏洞，证明了其实际有效性。本文的主要贡献包括：首次将数据依赖分析系统性地融入定向模糊测试的种子调度和变异过程；提出了轻量级的依赖图构建方法，避免了过度开销；并开源了实现代码，便于社区复现和扩展。

💡 推荐理由: 定向模糊测试在漏洞复现、补丁验证和关键代码审计中至关重要。DAFL通过数据依赖引导，显著提升了到达目标代码的效率，有望加速安全研究人员的分析工作，并为自动化漏洞发现提供新的思路。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Alexander Bulekov, Bandan Das, Stefan Hajnoczi, Manuel Egele

该论文提出了一种名为FUZZNG的新型内核模糊测试方法，旨在解决现有操作系统模糊测试工具（如Syzkaller）依赖手动编写的系统调用接口描述（语法规则）的扩展性问题。Syzkaller需要为每个内核接口提供精确且详细的语法描述，这限制了其可扩展性，并且手动创建这些描述非常耗时。FUZZNG利用内核设计的基本特性（例如系统调用编号和文件描述符）来重塑和简化模糊器的输入空间，从而无需复杂的系统调用接口描述即可工作。具体来说，FUZZNG只需要一个小的配置文件，包含要探索的文件列表和系统调用编号，即可开始测试。作者在Linux内核上实现了FUZZNG，并在10个已有Syzkaller详细描述的Linux组件上进行了测试。实验结果表明，FUZZNG平均达到了Syzkaller覆盖率的102.5%，并且发现了9个新漏洞，其中5个位于Syzkaller已经模糊测试多年的组件中。此外，FUZZNG的配置文件大小仅为Syzkaller手动编写语法的1.7%以下，且不需要初始种子输入或专家指导。该工作为内核模糊测试提供了一种更轻量级、更易扩展的方法，尤其适用于快速评估新内核组件或接口的安全性。

💡 推荐理由: 传统内核模糊测试依赖大量手动工作，FUZZNG通过消除对系统调用描述的需求，大幅降低了测试门槛，提高了可扩展性。对于安全团队，这意味着可以更快速地覆盖内核新接口，发现潜在漏洞。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Junmin Zhu, Siyu Liu, Jie Hu, Fabio Gritti, Ati Priya Bajaj, Hulin Wang, Wenbo Guo, Tiffany Bao, Christopher Kruegel, Giovanni Vigna

定向模糊测试旨在将模糊器导向用户定义的目标函数以发现漏洞，但经常在长时间运行后仍无法触发崩溃。本文识别了两个关键挑战：一是间接调用的静态分析不完整，导致基于距离的引导无法发现可达路径；二是缺乏对崩溃前提条件的语义引导，使得盲目变异在合理时间预算内无法满足这些条件。自然的干预点是初始种子语料库：编码正确控制流路径并满足关键崩溃前提条件的种子可以将模糊测试从盲目探索转变为局部优化。现有的种子生成方法均未同时解决这两个问题：基于语法和格式的方法生成结构有效但无目标感知的输入，而基于LLM的方法要么缺乏目标定位，要么通过单次提示继承了静态分析的局限性。本文提出SeedSmith，一个智能LLM流水线，模拟安全分析师的工作流程：从目标函数出发，迭代探索代码库，解析间接调用，识别崩溃前提条件，并合成满足这些条件的具体输入。由于SeedSmith作为种子生成前端运行，其种子与模糊器无关，可无修改地改进任何下游基于变异的模糊器。在Magma基准测试中，使用SeedSmith种子的模糊器相比默认种子，崩溃时间几何平均加速达到11.51倍（AFL++）到14.66倍（AFLGo）。在ARVO上，SeedSmith使模糊器触发了跨越10个项目的16个先前不可达的bug，涵盖多种输入格式。

💡 推荐理由: SeedSmith针对定向模糊测试效率低下的根源问题，提出了一种实用的种子合成方法，显著提升了漏洞发现效率。对于安全工程师和模糊测试研究人员来说，该方法有望缩短漏洞挖掘周期，并适用于多种输入格式和项目。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kunpeng Zhang, Xiaogang Zhu 0001, Xi Xiao 0001, Minhui Xue 0001, Chao Zhang 0008, Sheng Wen

本文针对基于突变的模糊测试（fuzzing）中字节重要性量化不足的问题展开研究。现有方法通常关注输入字节与路径约束的关系，但忽略了并非所有与约束相关的字节都能发现新代码。作者通过Shapley值分析发现，不同字节位置对模糊测试性能的贡献存在差异，且这种差异在不同种子间具有一致性。基于这一观察，提出ShapFuzz，一种通过Shapley值指导字节选择和突变的模糊测试方案。具体地，ShapFuzz在每次输入测试时以低开销更新字节的Shapley值，并利用上下文多臂老虎机（Contextual Multi-Armed Bandit）在突变高Shapley值字节和低频率被选中的字节之间进行权衡。基于AFL++实现原型，并与10个最先进的模糊测试器（包括5个字节调度增强型模糊测试器和5个常用模糊测试器）进行对比。实验结果表明：与字节调度增强型模糊测试器相比，ShapFuzz在三组不同初始种子集上发现了更多的新边（edges）和暴露了更多的漏洞；与常用模糊测试器相比，ShapFuzz在MAGMA基准上比最佳对比模糊测试器多暴露20个漏洞，并发现6个额外的CVE。此外，在最新版本的程序中发现了11个新漏洞，其中3个已得到供应商确认。该研究为模糊测试中的字节重要性量化提供了新视角，有效提升了模糊测试的代码覆盖和漏洞发现能力。

💡 推荐理由: 本文提出了一种基于Shapley值指导字节选择的新型模糊测试方法ShapFuzz，在漏洞发现效率上显著优于现有方案，有助于安全测试人员更高效地挖掘软件缺陷。其核心思想可迁移至其他基于突变的测试场景。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xing Zhang, Zikang Huang, Gang Yang, CongChong Wang, Lu Liu, Bin Yin, Mingyi Wang, Ziquan Zhao, Min Li, Zhenyu Chen, Bo Wu, Lingyun Ying

该论文提出 SynapseFlow，一种基于状态机引导的自动化模糊测试 harness 生成工具，旨在解决现有大语言模型（LLM）单轮生成方法中因函数粒度过粗和生成流程错位导致的幻觉及覆盖率不足问题。SynapseFlow 的创新包括两点：一是数据流感知的函数聚合，通过分析源代码构建结构流图（Structural Flow Graph）并提取连贯的函数三元组（Function Triplets）；二是采用分阶段且支持回滚的生成工作流分解，将 harness 合成过程分为四个阶段，并由分阶段回滚算法确保正确性。在 25 个真实世界开源软件项目上的实验表明，SynapseFlow 在分支覆盖率和漏洞发现率上显著优于现有工具（OSS-Fuzz-Gen、CKGFuzzer、PromeFuzz），分支覆盖率分别提升 3.07、1.71、4.26 倍，漏洞发现率分别提升 1.77、1.51、1.36 倍。更重要的是，SynapseFlow 发现了 7 个此前未报告的漏洞（其中 5 个已分配 CVE），证明了其在真实场景中的实用效果。该研究适合安全测试工程师、模糊测试研究人员和 LLM 自动化工具开发者阅读。

💡 推荐理由: 高质量 fuzz harness 是高效灰盒模糊测试的关键瓶颈，SynapseFlow 利用 LLM 结合数据流分析与分阶段工作流，显著提升了自动化生成质量，并在真实项目中发现了多个新漏洞，证明了实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Patrick Jattke, Victor van der Veen, Pietro Frigo, Stijn Gunter, Kaveh Razavi

该论文提出了一类新的非均匀 Rowhammer 访问模式，能够绕过 DRAM 内部未文档化、专有的目标行刷新（TRR）缓解机制，并在实际生产环境中成功触发比特翻转。作者首先指出所有已公开的 Rowhammer 访问模式都采用均匀锤击“攻击行”的方式，虽然均匀访问能最大化攻击行激活次数，但 DRAM 内部的 TRR 恰好利用这一规律来捕获攻击行并在受害者行失效前刷新它们。然而，随着工艺节点缩小，DRAM 技术更加脆弱，所需的访问次数显著减少，使得探索非均匀访问模式变得有意义。非均匀模式的搜索空间巨大，作者设计了实验来探索该空间中针对已部署缓解措施的有效性，强调了在非均匀模式中攻击行的顺序、规律性和强度的重要性。通过将这些参数在频域中随机化，作者设计并实现了 Blacksmith——一个可扩展的 Rowhammer 模糊测试器，能够生成具有不同相位、频率和幅度的攻击模式。实验表明，Blacksmith 在全部 40 个近期购买的 DDR4 DIMM 上发现了复杂的模式并触发比特翻转，数量是现有技术的 2.6 倍，平均产生的比特翻转数量是现有技术的 87 倍。该工具在低功耗 DDR4X 设备上也有效。进一步分析提供了对当前 TRR 缓解措施特性的新见解。论文结论指出，经过近十年的研究和部署的 DRAM 内部缓解措施，我们可能处于比 Rowhammer 最初被发现时更糟糕的局面。

💡 推荐理由: 该研究揭示了现有 Rowhammer 缓解措施（TRR）的严重缺陷，证明了非均匀访问模式可全面绕过保护，对 DRAM 安全领域具有重大冲击，迫使行业重新评估防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zezhong Ren, Han Zheng 0006, Zhiyao Feng, Qinying Wang, Marcel Busch, Yuqing Zhang 0001, Chao Zhang 0008, Mathias Payer

内核模糊测试是发现内核漏洞的有效手段，但现有工具如Syzkaller过度追求代码覆盖率，导致低频代码区域测试不足。本文提出SYSYPHUZZ，一种面向代码频率的内核模糊器，旨在提升对未充分测试代码区域的探索。首先，通过对Linux内核中Syzkaller的精细评估，揭示了代码覆盖不平衡的问题。SYSYPHUZZ引入两个关键技术：选择性任务调度（Selective Task Scheduling）动态优先管理探索任务，避免任务爆炸；上下文保持突变（Context-Preserving Mutation）减少对低频系统调用上下文依赖的破坏。与Syzkaller和SyzGPT的对比实验表明，SYSYPHUZZ显著减少了未探索代码区域，发现31个被Syzkaller遗漏和27个被SyzGPT遗漏的独特bug，并发现5个被持续运行的Syzbot遗漏的漏洞。将SYSYPHUZZ与SyzGPT集成后，新工具SyzGPTsysy多发现33%的独占bug，证明了其增强效果。所有漏洞已负责任披露，代码已开源。该研究为内核模糊测试提供了新方向，有望提升Linux内核的安全性。

💡 推荐理由: 内核漏洞是高危目标，传统覆盖率导向的模糊测试已陷入瓶颈。SYSYPHUZZ从代码频率角度切入，可发现大量被现有工具遗漏的漏洞，对提升内核安全性有直接价值，值得安全研究人员和内核开发者关注。

🎯 建议动作: 关注SYSYPHUZZ开源项目，评估将其集成到内部内核模糊测试流程的可能性，以增强对低频代码区域的覆盖。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yu-De Lin, Nils Ole Tippenhauer

本文针对模糊测试中反馈收集的局限性问题展开研究。在传统模糊测试中，通常需要能够观察和插桩二进制程序中的基本块以获取执行反馈，从而指导输入生成。然而，在许多实际场景中，例如对黑盒设备进行原位模糊测试或对经过混淆编译的二进制进行测试时，无法直接收集这类反馈。为解决这一挑战，作者提出了基于运行时执行轨迹构建控制流图（CFG）类似结构的方法，以从执行轨迹中推导反馈信息。首先，作者介绍了一种简单的分歧检测方法，用于识别唯一的执行轨迹；随后，提出了一种改进的基于执行分歧图（Execution Divergence Graph, EDG）的方法。EDG 能够更有效地处理循环中的重复代码执行等特殊问题，并构建出更精细的反馈信号。作者实现了这两种方法，并在一系列基准测试和混淆目标上进行了实验。结果表明，与纯盲模糊测试器相比，基于 EDG 的方法显著提高了代码覆盖率和漏洞发现效率。此外，作者还展示了该方法在无法进行静态插桩的场景下的有效性。尽管本文研究的场景假设攻击者可以直接观察完整的指令轨迹，但该方案同样可应用于其他反馈通道（如功耗分析）的场景。本文的主要贡献在于提出了一种无需静态插桩即可从执行轨迹中提取反馈的新方法，并验证了其在模糊测试混淆二进制和黑盒设备中的有效性，为安全测试领域提供了一种实用的替代方案。

💡 推荐理由: 该研究为黑盒设备模糊测试和混淆二进制测试提供了新的反馈机制，无需静态插桩即可实现高效的引导式模糊测试，对安全测试工程师在受限场景下发现漏洞具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Fuchen Ma, Yuanliang Chen, Meng Ren, Yuanhang Zhou, Yu Jiang 0001, Ting Chen 0002, Huizhong Li, Jiaguang Sun 0001

区块链共识协议负责协调节点对交易结果达成一致，其实现中的漏洞（包括内存相关和共识逻辑漏洞）可能构成严重威胁。现有的模糊测试工具无法有效处理分布式节点的复杂共识状态，导致生成大量无效数据包，难以触及协议深层逻辑。为此，本文提出LOKI，一个针对区块链共识协议实现的状态感知模糊测试框架。LOKI通过伪装成节点实时获取共识状态，动态构建状态模型记录每个节点的状态转换，并根据状态模型自适应生成输入的目标、类型和内容。通过内置的Bug分析器，LOKI利用明确定义的oracle检测共识协议实现中的漏洞。研究者在四个广泛使用的商业区块链系统（Go-Ethereum、Meta Diem、IBM Fabric和WeBank FISCO-BCOS）上实现了LOKI并进行了评估。LOKI发现了20个严重的前所未知漏洞，其中9个已分配CVE。这些漏洞包括14个内存相关漏洞和6个共识逻辑漏洞。与Peach、Fluffy和Twins等最先进工具相比，LOKI在分支覆盖率上平均提高了43.21%、182.05%和291.58%。该工作证明了状态感知方法在区块链共识协议模糊测试中的有效性，为协议安全检测提供了新思路。

💡 推荐理由: 区块链共识协议漏洞可能导致整个网络瘫痪或资产被盗，LOKI提出了一种高效的状态感知模糊测试方法，能自动发现深层逻辑漏洞，对保障区块链系统安全具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Daniel Klischies, Dyon Goos, David Hirsch 0001, Alyssa Milburn, Marius Muench, Veelasha Moonsamy

蜂窝基带固件是现代移动设备的核心安全组件，但对其进行安全测试极具挑战。现有仿真器因无法完整模拟数字信号处理器（DSP）、SIM卡、射频前端等复杂外设，导致测试覆盖度有限，模糊测试（fuzzing）只能发现浅层漏洞。本文提出BaseBridge，一种全新的基带仿真方法，通过从真实设备的物理内存转储中提取并恢复关键状态，显著提升仿真逼真度。BaseBridge原型支持联发科（MediaTek）和三星（Samsung）两大主流厂商的基带固件，在评估中能够正确响应97%的RRC和NAS协议消息，代码覆盖度平均提升2.41倍（三星）和5.54倍（联发科），并通过多项LTE一致性测试。基于该仿真的模糊测试进一步显示：整体覆盖度提升2.3~5倍，针对所关注的协议功能区域覆盖度提升9.0~22.5倍。BaseBridge共发现5个新漏洞，已向受影响厂商披露。该方法突破了传统仿真器的外设支持瓶颈，为基带固件的大规模、高保真安全测试开辟了新路径。

💡 推荐理由: 蜂窝基带漏洞可导致远程窃听、拒绝服务等严重攻击，而现有测试手段覆盖不足。BaseBridge通过高保真仿真大幅提升漏洞发现能力，为防御者提供了更有效的基带固件安全评估工具，有助于提前发现并修复高危缺陷。

🎯 建议动作: 建议关注该研究的技术细节，评估其是否适用于内部基带安全测试流程，并考虑与厂商合作扩展支持更多基带平台。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Dakshina Tharindu, Sahan Sanjaya, Philip Baptist, Prabhat Mishra

本文提出 PowerFuzz，一种基于功耗侧信道测量的统计黑盒固件模糊测试框架。其核心动机是：许多嵌入式系统的固件或二进制文件不公开，导致无法使用依赖执行反馈（如分支覆盖率）的灰盒模糊器。PowerFuzz 无需目标固件的任何内部可见性，仅通过测量固件运行时的功耗迹线来推断执行路径。为了解决黑盒模糊中确定执行分支的挑战，作者采用滑动窗口结合增长窗口的全迹线相关方法，利用功耗迹线识别分支行为，并构建固件的高层控制流图。该控制流图用于引导模糊器生成测试用例，探索未覆盖的执行路径。实验在三个嵌入式硬件平台（如 ARM Cortex-M 系列）和十个固件基准测试上进行，结果表明 PowerFuzz 的分支覆盖率与灰盒模糊器相当（差距在 13.5% 以内），且显著优于现有的黑盒模糊器（最高提升 22%）。该方法为闭源固件安全测试提供了一种实用且有效的途径。

💡 推荐理由: 本方法解决了闭源固件无法使用灰盒模糊的痛点，利用功耗侧信道实现黑盒环境下的分支覆盖引导，显著提升了黑盒模糊测试效率，对 IoT 和嵌入式设备安全评估具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xinyang Ge, Ben Niu 0007, Robert Brotzman, Yaohui Chen 0001, HyungSeok Han, Patrice Godefroid, Weidong Cui

该论文提出 HyperFuzzer，一种针对虚拟机监控器（hypervisor）中CPU虚拟化实现的高效混合模糊测试工具。在云计算时代，hypervisor 的安全性至关重要，尤其是 CPU 虚拟化模块，它运行在最高特权级，漏洞可能导致整个云平台被攻破。传统黑盒和灰盒模糊测试因搜索空间巨大（涉及数千条指令、复杂交互状态）而只能发现浅层错误；白盒模糊测试（符号执行）虽能进行系统性分析，但现有实现依赖于慢速的硬件模拟器，无法扩展到真实规模。HyperFuzzer 创新地结合了三种技术：灰盒模糊测试用于快速覆盖新代码路径，白盒符号执行对关键模块进行深度分析，以及一个轻量级虚拟 CPU 模型来加速符号执行并避免硬件模拟器瓶颈。核心贡献包括：（1）设计了一种混合测试框架，在灰盒与白盒之间自适应切换，优先探索高风险区域；（2）提出可增量更新的虚拟 CPU 模型，准确刻画指令语义且开销低；（3）在多个主流 hypervisor（如 KVM、Xen）上进行了评估，结果表明 HyperFuzzer 比纯灰盒工具发现深层漏洞的效率提升 10 倍以上，并找到了若干之前未知的虚拟 CPU 漏洞。该方法适用于 hypervisor 安全测试、操作系统内核虚拟化单元测试，以及任何需要深度指令级验证的场景。本文供 hypervisor 开发者、安全研究员以及云平台安全团队参考。

💡 推荐理由: 虚拟 CPU 是 hypervisor 最核心且最难测试的组件，HyperFuzzer 提出了一种可落地的混合模糊测试方案，显著提升了深层漏洞发现效率，对云安全防御具有直接实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ali Ranjbar, Tianchang Yang, Kai Tu, Saaman Khalilollahi, Syed Rafiul Hussain

基带固件是蜂窝通信中的关键组件，但因其专有、闭源以及状态化处理逻辑的复杂性，系统性安全测试面临巨大挑战。现有方法往往忽视基带任务间的依赖关系和输入处理逻辑的状态性，导致测试覆盖有限且效率低下。本文提出 Loris，一种针对商业基带固件的状态化模糊测试框架。Loris 采用迭代符号分析技术，逐步识别协议状态变量及其上的谓词，从而定义不同协议状态，同时缓解状态爆炸问题。这使得 Loris 能够对具有高漏洞潜力的程序区域进行定向探索和模糊测试。研究者在来自两家主流厂商的 5 款商用设备上评估了 Loris，覆盖 4G LTE 和 5G NR 两种制式，验证了其广泛适用性。测试共发现 7 个新漏洞，攻击者可通过空中接口利用这些漏洞，导致基带崩溃、远程代码执行或拒绝服务。该工作为基带固件安全测试提供了新思路，填补了状态化分析在闭源固件上的空白。

💡 推荐理由: 基带固件漏洞直接影响移动通信安全，Loris 框架能够有效发现传统方法遗漏的状态相关漏洞，对防御者理解新型攻击面和提升测试能力具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jingcheng Yang, Enze Wang, Jianjun Chen 0005, Qi Wang 0094, Yuheng Zhang, Haixin Duan, Wei Xie 0007, Baosheng Wang

本文提出了一种名为JWTeemo的自动化测试方法论，用于系统性地发现JSON Web Token (JWT) 实现中的安全漏洞。JWT作为分布式Web应用中广泛使用的认证和授权标准，其实现常存在签名验证绕过、令牌伪造、拒绝服务等漏洞。此前的研究多为单个漏洞报告，缺乏系统性分析。作者基于JWT规范（RFC 7515等）和常见实现错误，设计了JWTeemo，它通过构造畸形的JWT令牌（如修改签名算法、使用无效密钥、伪造头部等）来测试实现的鲁棒性。作者在10种主流编程语言的43个JWT实现上进行了评估，共发现31个此前未知的安全漏洞，其中20个已分配CVE编号。这些漏洞的影响包括：在Kubernetes中可实现认证绕过（由于Kubernetes使用JWT进行API服务器认证），以及在Apache James中可发起拒绝服务攻击。作者将漏洞归纳为五类：签名验证绕过、令牌伪造、DoS、密钥管理缺陷、算法混淆。针对每类漏洞，提出了缓解策略，并与IETF进行了讨论，IETF已承认这些发现并计划在新RFC中采纳缓解措施。此外，研究团队向受影响的供应商报告了漏洞，收到了Apache、Connect2id、Kubernetes、Let's Encrypt、RedHat等的确认和赏金奖励。该研究适合安全研究人员、JWT库的开发者以及依赖JWT的Web应用安全工程师阅读。

💡 推荐理由: JWT是当今Web应用身份认证的基石，但其实现漏洞可能导致严重的安全后果。该研究首次系统性地评估了多语言JWT库，发现了大量高危漏洞（包括CVE），并推动了IETF RFC的改进，对业界具有直接指导意义。

🎯 建议动作: 研究跟进：安全团队应关注JWTeemo工具或类似方法，对内部使用的JWT库进行测试；评估并修补已知CVE。

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Xiaoyue Ma, Lannan Luo, Qiang Zeng 0001

该论文针对Matter智能家居物联网协议的安全测试问题展开研究。Matter协议由连接标准联盟（CSA）维护，其规范文档长达上千页，复杂且庞大，导致传统模糊测试方法难以有效覆盖隐藏漏洞。作者提出了一种基于大语言模型（LLM）辅助的模糊测试方法，利用LLM理解和解析协议规范文本，自动生成语义正确且边界覆盖更广的测试用例。具体步骤包括：使用LLM从规范中提取协议状态机、消息格式和字段约束；基于这些信息构造结构化测试输入；驱动真实的Matter设备进行执行并监控异常。实验在多个商用Matter设备上开展，成功发现了15个之前未知的漏洞，其中多个涉及协议实现中的状态处理错误和输入验证缺失。该工作表明，LLM能够有效桥接自然语言规范和底层实现之间的鸿沟，显著提升物联网协议模糊测试的深度和效率。

💡 推荐理由: Matter协议旨在统一智能家居设备互联，其安全性至关重要。本文提出的LLM辅助Fuzzing方法可自动挖掘协议实现中的隐蔽漏洞，对保障物联网生态安全具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ting Yang, Yue Qin, Lan Zhang 0008, Zhiyuan Fu, Junfan Chen, Jice Wang, Shangru Zhao, Qi Li 0002, Ruidong Li 0001, He Wang 0014, Yuqing Zhang 0001

蓝牙低功耗（BLE）已成为现代物联网设备的核心通信标准，但其协议设计的复杂性导致了许多逻辑缺陷，例如字段解析语义歧义或无效状态转换，可能被利用实现认证绕过、未授权控制或拒绝服务（DoS）攻击。现有黑盒模糊测试工具通常基于随机变异或简单语法，无法深入触及协议语义层面的不一致性。为此，本文提出BSFuzzer——一种基于上下文感知语义的BLE逻辑缺陷模糊测试框架。BSFuzzer创新地利用大语言模型（LLM）智能体从蓝牙核心规范文本和图中自动提取状态机与数据包语义，生成两种变异类型：违反协议规则的字段级变异和破坏关键状态转换的状态级变异。这些变异被组合为结构化测试序列并在目标设备上执行。LLM智能体进一步用于验证设备响应是否符合预期行为，从而发现传统工具难以捕获的细微逻辑缺陷。实验在19个真实BLE设备（包括9个系统级芯片（SoC）模块和10部智能手机）上进行，共发现36个安全问题，其中34个为先前未知漏洞，9个已分配CVE编号。两个关键漏洞被主流厂商通过漏洞赏金计划确认。结果表明，BSFuzzer在基于LLM的规范分析（准确率高达97%）和响应验证（准确率高达85.8%）方面表现优异，相比四种最先进的BLE漏洞检测工具，代码覆盖率提升9.34%，并暴露了更广泛类型的漏洞，证明其在揭示BLE协议实现深度解释不一致性方面的有效性。

💡 推荐理由: BSFuzzer利用LLM理解协议规范，自动生成语义敏感的测试用例，能发现传统模糊测试难以触及的BLE逻辑缺陷，为蓝队评估BLE设备安全性提供了全新且高效的方法。

🎯 建议动作: 研究跟进BSFuzzer方法，评估将其集成到BLE安全测试流程的可行性。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhenpeng Lin, Yueqi Chen 0001, Yuhang Wu 0003, Dongliang Mu, Chensheng Yu, Xinyu Xing 0001, Kang Li

在 Linux 内核安全领域，动态测试工具（如 fuzzing）已加速漏洞发现，但这些工具生成的报告通常只展示触发漏洞时的单一错误行为（如空指针解引用、缓冲区溢出等）。安全分析师依赖该错误推断漏洞的可利用性，进而决定漏洞修复优先级。然而，同一漏洞通过不同路径或在不同上下文中触发，可能表现出多种不同的错误行为，从而影响其利用潜力的评估。仅凭单一报告可能低估漏洞风险。为解决该问题，本文提出 GREBE（内核模糊测试工具），其核心创新在于对象驱动（object-driven）的内核模糊测试技术。与传统的代码覆盖率驱动的 fuzzing 不同，GREBE 聚焦于有 bug 的代码片段，通过智能变异输入来探索各种上下文和路径，使同一漏洞展现多种错误行为。具体而言，它通过分析漏洞代码访问的内核对象及其状态，生成多样化的测试用例，以触发不同错误表现。实验在 60 个真实 Linux 内核漏洞上评估 GREBE。结果显示，相比原始报告，GREBE 平均为每个漏洞额外发现超过 2 种错误行为；其中 26 个漏洞被揭示具有更高的利用潜力（即可能被攻击者利用）。此外，研究人员将部分被误判为低风险的漏洞报告给内核厂商，促使厂商紧急应用补丁。论文的主要贡献在于：1）提出一种新的内核 fuzzing 思路，从单一错误扩展到多错误行为评估；2）设计并实现对象驱动的模糊测试框架；3）通过大规模实验证明该方法能显著提升漏洞利用性评估的准确性。适合内核安全研究人员、漏洞分析师以及 SOC 团队阅读，以改进漏洞优先级排序。

💡 推荐理由: 帮助蓝队和漏洞分析师摆脱对单一错误报告的依赖，更准确地评估内核漏洞的实际威胁，避免因低估风险而导致未及时修复的高危漏洞被攻击者利用。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jie Liang 0006, Mingzhe Wang, Chijin Zhou, Zhiyong Wu 0010, Yu Jiang 0001, Jianzhong Liu, Zhe Liu 0001, Jiaguang Sun 0001

本文提出了一种名为PATA的模糊测试工具，其核心创新在于实现了路径感知的污点分析技术。传统污点分析在处理真实程序中的循环结构时，难以区分同一变量在循环中多次出现的约束条件。PATA通过以下步骤解决该问题：首先，识别约束中使用的变量，并构建代表变量序列（RVS），该序列包含所有代表性约束变量的出现及其值；其次，扰动输入，将扰动后的RVS与原始RVS匹配，通过值变化识别影响每个RVS条目的输入字节；最后，变异对应的输入字节以求解给定路径上的约束。实验在Google的fuzzer-test-suite、LAVA-M以及多个开源项目上评估，与AFL、MOPT、TortoriseFuzz、VUzzer、Angora、Redqueen和Greyone等先进模糊测试工具对比。在Google测试套件上，PATA发现的唯一路径数量和覆盖的基本块数量分别比其他领先模糊测试工具高出29%–1830%和7%–87%，并发现了更多漏洞，包括17个未列出的漏洞。在LAVA-M上，PATA在所有评估的模糊测试工具中表现最佳，发现了2602个漏洞。在开源项目中，PATA发现了40个以前未知的漏洞，其中12个已确认为CVE。

💡 推荐理由: 该研究提出了一种新颖的路径感知污点分析方法，显著提升了模糊测试在复杂程序（尤其是含循环结构）中的约束求解能力和漏洞发现效率，对改进模糊测试技术有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Han Zheng, Qinying Wang, Qiang Liu, Mathias Payer

该论文是系统化知识（SoK）研究，旨在对现代Web浏览器的低层攻击面进行系统化分类和分析。背景是：浏览器作为远程攻击面，内存破坏漏洞在真实世界利用中仍占核心地位。尽管过去十年已有大量浏览器测试和漏洞披露工作，但社区仍缺乏一个明确的、防御导向的低层攻击面系统化框架。先前SoK论文调查了浏览器漏洞和缓解技术，但视角碎片化，未回答一个核心问题：现代Web浏览器的低层攻击面如何结构化？哪些部分在现有安全测试中尚待探索？为回答该问题，作者提出三个子问题：（RQ1）浏览器的攻击面如何沿输入类和组件结构化？（RQ2）内存破坏漏洞在该分类中出现在何处？（RQ3）这些攻击面模式对现有浏览器安全测试有何启示？针对RQ1，作者推导出一个架构驱动的“输入×组件×权限”分类法，将浏览器架构抽象为统一视图。针对RQ2，他们将2016年至2025年间公开的2233个内存破坏报告映射到该分类法上。针对RQ3，他们将过去十年的学术浏览器模糊测试器（按目标输入类分类）叠加到bug密度图上。系统化工作揭示：当前测试集中在已充分探索的组件，而bug密集、高影响的攻击面测试不足。此外，他们识别出三个与学术工作正交的模糊测试部署缺口。该工作为未来的浏览器安全研究提供了结构化基础。

💡 推荐理由: 该研究系统化地绘制了浏览器低层攻击面的结构图谱，揭示了当前安全测试的盲点，有助于蓝队和浏览器开发者优先加固最易受攻击的组件，优化模糊测试资源投入。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ruixiang Qian, Ding Yang, Zengxu Chen, Yuxuan Gao, Chunrong Fang, Chao Zhang, Zhenyu Chen

本文首次研究了基于变异性（metamorphic）的模糊测试预言增强（MFOE）方法，旨在提升灰盒模糊测试的漏洞检测能力。传统的模糊驱动程序通常仅依赖崩溃预言（crash-based oracle），忽略了库函数功能的正确性验证，限制了发现非崩溃类缺陷的能力。为此，作者提出利用变异性关系（MRs）构造变异性预言，并将其集成到现有模糊驱动中。然而，手动构建和集成此类预言需要大量领域知识，难以自动化。为解决这一挑战，论文提出了MetaFOE框架，借助大型语言模型（LLM）自动生成并集成变异性预言。MetaFOE首先从目标函数接口和文档中提取信息，利用LLM生成候选MRs，然后通过静态分析和编译验证筛选出可用的MRs，再自动生成元驱动程序（meta driver）代码。实验基于OSS-Fuzz项目中的实际驱动程序，使用了三种现代LLM（GPT-4、Claude等）和五种提示策略。结果显示，MetaFOE生成了3475个MRs，其中77.3%可被应用；实现了12351个元驱动，其中6228个有效。经过三小时的模糊测试，有效元驱动平均提升了18.7%的边覆盖率，并触发了1528个独特的崩溃。该工作证明了变异性预言增强的有效性以及利用LLM自动化实现MFOE的可行性，为推进灰盒模糊测试提供了新思路。

💡 推荐理由: 该研究首次将变异性预言的自动化构造引入模糊测试，通过LLM显著降低了人工成本。提升边覆盖率和触发大量崩溃表明其实际效果，对安全测试人员改进模糊驱动、发现非崩溃类漏洞具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Seulbae Kim, Major Liu, Junghwan John Rhee, Yuseok Jeon, Yonghwi Kwon 0001, Chung Hwan Kim

该论文提出了一种名为 DriveFuzz 的模糊测试工具，旨在自动发现自动驾驶系统（ADS）中的安全缺陷。自动驾驶系统通常依赖深度神经网络处理传感器数据并做出驾驶决策，但这类系统可能因异常输入（如传感器噪声、不规则路况）而表现出不安全行为。然而，传统的模糊测试方法难以有效应用于复杂的 ADS 环境，因为它们需要模拟真实的物理世界交互。DriveFuzz 的关键创新在于引入了一种“驾驶质量引导”的模糊测试策略：它基于车辆控制信号的平滑性、碰撞风险等指标来量化每次测试输入的“驾驶质量”，并利用该指标指导变异算子生成更可能触发不安全行为的测试场景。具体而言，DriveFuzz 通过将原始传感器数据（如激光雷达点云、摄像头图像）作为输入，并利用一个反馈循环，选择那些导致驾驶质量下降的变异输入进行后续探索。论文在工业级自动驾驶模拟器（如 CARLA、LGSVL）上进行了评估，结果表明 DriveFuzz 能够有效发现多种类型的 bug，包括车辆偏离车道、碰撞障碍物、无视交通标志等，且发现的 bug 数量显著优于现有基线方法。该工作发表于 ACM CCS 2022，附录包含更多实验细节。

💡 推荐理由: 自动驾驶系统的安全性直接关乎人身安全，DriveFuzz 提供了一种自动化发现驾驶决策逻辑缺陷的方法，有助于在部署前识别高风险场景，减少路测风险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jan Drescher, David Klein 0001, Martin Johns

本文针对现代浏览器（Chrome、Firefox）的站点隔离（Site Isolation）安全架构，提出了一种自动检测逻辑漏洞的方法。站点隔离通过将不同站点的渲染进程隔离到独立的沙箱中，以缓解Spectre等微架构攻击和渲染器内存破坏的影响。其安全依赖于操作系统进程隔离和浏览器进程的正确策略实施：浏览器进程需追踪每个渲染进程对应的站点上下文，并通过IPC消息限制跨站网络通信，遵守同源策略和CORS。若站点映射或策略实施存在逻辑缺陷，则可能导致站点隔离绕过漏洞，使攻击者能够跨站执行恶意JavaScript或窃取cookie。由于此类语义漏洞不会产生明显崩溃，传统工具（如Address Sanitizer）难以检测。作者提出了第一个自动检测方法：设计了一个新颖的检测规则，通过识别进程级别的跨站数据泄露来定位语义漏洞；并开发了一个模糊测试工具，模拟被攻破的渲染进程，通过挂钩IPC通信来利用浏览器进程作为“被混淆的代理人”，尝试发送恶意IPC消息。实验在Chrome和Firefox上发现了四个安全漏洞：其中三个漏洞允许跨站数据泄露，第四个漏洞可导致对受害者站点的完全控制。该研究为浏览器安全测试提供了自动化手段，适用于浏览器厂商和安全研究人员进一步评估和加固站点隔离实现。

💡 推荐理由: 站点隔离是浏览器核心安全机制，其绕过漏洞威胁所有用户数据。该工作首次实现自动化检测，填补了针对语义漏洞的空白，能帮助厂商在漏洞被利用前发现并修复。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nilo Redini, Andrea Continella, Dipanjan Das 0002, Giulio De Pasquale, Noah Spahn, Aravind Machiry, Antonio Bianchi, Christopher Kruegel, Giovanni Vigna

本文针对物联网设备固件难以提取和仿真的问题，提出了一种利用配套移动应用生成有效且欠约束的模糊测试输入的方法。关键洞察是：在配套应用中存在一类称为“模糊触发函数”的代码位置，它们位于输入验证代码之后、数据变换函数（如网络序列化）之前。通过在这些点注入模糊数据，可以生成既不被应用端校验限制、又不被设备因格式无效而丢弃的测试用例。作者开发了工具Diane，结合静态分析和动态分析在Android配套应用中定位模糊触发函数，并自动对物联网设备进行黑盒模糊测试。在11款流行物联网设备上，Diane发现了11个漏洞，其中9个为零日漏洞。实验表明，若不使用模糊触发函数，许多设备无法生成触发漏洞的输入。该方法有效提升了IoT黑盒模糊测试的效率和深度。

💡 推荐理由: 为物联网设备安全测试提供了一种实用的黑盒模糊测试方法，可发现传统方法难以触及的漏洞，对提升IoT生态安全性有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peihong Lin, Pengfei Wang 0010, Xu Zhou 0004, Wei Xie 0007, Gen Zhang, Kai Lu 0001

定向灰盒模糊测试（DGF）旨在通过预定义目标位置强化对易受攻击代码区域的测试。现有DGF技术主要基于启发式算法优化适应度指标，但这些方法依赖历史执行信息，对尚未执行的路径缺乏预见性，导致难以处理具有复杂约束的路径，从而降低DGF效率。本文提出DeepGo，一种预测性定向灰盒模糊测试器，通过结合历史与预测信息，引导DGF沿最优路径到达目标位置。首先，DeepGo引入路径转换模型，将DGF建模为通过特定路径转换序列到达目标的过程；变异生成的新种子会引发路径转换，高奖励路径转换序列对应的路径更有可能到达目标。其次，为预测未执行的路径转换及其奖励，DeepGo使用深度神经网络构建虚拟集成环境（VEE），该环境逐步模仿路径转换模型并预测路径转换的奖励。然后，开发了模糊测试强化学习（RLF）模型，生成具有最高序列奖励的转换序列，RLF结合历史与预测路径转换生成最优序列，并指导变异策略。最后，为执行高奖励路径转换序列，提出动作组概念，综合优化模糊测试关键步骤，高效实现最优路径。实验在包含25个程序、100个目标位置的基准测试集上进行，结果表明DeepGo在到达目标位置的速度上比AFLGo、BEACON、WindRanger和ParmeSan分别快3.23倍、1.72倍、1.81倍和4.83倍，在暴露已知漏洞方面分别快2.61倍、3.32倍、2.43倍和2.53倍。

💡 推荐理由: 该研究通过引入预测性路径规划和强化学习，显著提升了定向灰盒模糊测试的效率和漏洞发现能力，为安全测试工具的智能化改进提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peng Xu, Yanhao Wang, Hong Hu 0004, Purui Su

本文提出COOPER，一种用于测试脚本语言（如JavaScript）与低级语言（C/C++）之间绑定代码的协同变异方法。许多商业软件（如Adobe Acrobat）集成脚本语言以实现动态文件修改，但脚本与底层实现之间的绑定层因数据转换和表示形式而存在语义不一致和安全漏洞。现有测试方法仅关注脚本侧，忽略需要特殊程序本机输入的缺陷。COOPER通过协同变异同时生成脚本端输入和程序本机输入，以触发绑定代码中的不一致性，从而发现潜在漏洞。实验结果表明，COOPER能够有效检测出真实世界软件中隐藏的绑定缺陷，包括一些先前未发现的漏洞，证明了其在提高软件安全性方面的价值。该方法适用于任何使用脚本语言扩展功能的系统，特别是PDF解析器、浏览器插件等场景。

💡 推荐理由: 揭示了脚本语言与底层代码间绑定层的安全盲区，提供了一种针对性的自动化测试方法，有助于发现传统fuzzing遗漏的严重漏洞。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Alvin Charles, Adrian Herrera, Peter Oslington, Alwen Tiu

该论文提出了一种名为PeAR的静态二进制重写框架，旨在解决闭源软件二进制级模糊测试中的覆盖率引导问题。传统上，二进制模糊测试依赖动态二进制插桩（DBI）来获取覆盖率信息，但DBI会引入显著运行时开销。静态二进制插桩（SBI）虽可避免运行时开销，但常被认为存在精度和正确性挑战。作者通过实验表明，利用现有成熟框架可以实现精确且可扩展的SBI，并基于此构建了PeAR框架。PeAR支持多种现代模糊器特性，包括延迟初始化、持久模式和共享内存模糊测试。作者在FUZZBENCH基准上进行了总计4.25 CPU年的模糊测试评估，结果表明：(i) PeAR成功插桩了88%的FUZZBENCH目标，与最佳SBI模糊器相当；(ii) 在使用持久模式和共享内存模糊测试时，中位数吞吐量提升了4倍；(iii) 达到了与编译器插桩相当的覆盖率。这些结果证明SBI是二进制模糊测试中一种实用且有效的技术，现代二进制重写框架能够在高粒度下应用复杂插桩，且性能损失极小。该研究适合对二进制安全、模糊测试、静态分析感兴趣的从业者阅读。

💡 推荐理由: 该工作展示了静态二进制插桩在二进制模糊测试中的可行性，为闭源软件漏洞挖掘提供了低开销、高吞吐的替代方案，有助于提升工业界对静态重写技术的信心。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Matheus E. Garbelini, Vaibhav Bedi, Sudipta Chattopadhyay 0001, Sumei Sun, Ernest Kurniawan

本文提出了一种名为 BrakTooth 的定向模糊测试工具，专门用于发现蓝牙协议栈中 Link Manager 层的安全漏洞。蓝牙 Link Manager 负责建立、管理和释放蓝牙连接，其实现通常嵌入在固件中，难以通过传统方法进行大规模测试。BrakTooth 基于状态感知的模糊测试技术，通过逆向分析蓝牙规范，构建了 Link Manager 协议的状态机模型，并针对不同状态下的协议数据单元（PDU）生成测试用例。该工具能够自动发现导致设备崩溃、拒绝服务或潜在远程代码执行的漏洞。作者使用 BrakTooth 对多款主流蓝牙芯片（如 Intel、Qualcomm、Broadcom 等）进行了测试，共发现了 16 个未知漏洞，将其分类为逻辑错误、内存损坏和协议违规等类型。实验表明，BrakTooth 在漏洞发现效率上显著优于通用模糊测试工具。该研究不仅揭示了蓝牙 Link Manager 实现中的普遍安全问题，还提出了一种可扩展的面向协议实现的漏洞挖掘方法，对蓝牙安全研究具有重要意义。

💡 推荐理由: 蓝牙设备广泛使用，Link Manager 层漏洞可导致拒绝服务甚至远程代码执行，BrakTooth 系统化地发现大量新漏洞，对蓝牙安全防御和固件更新有直接推动作用。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jinsheng Ba, Marcel Böhme, Zahra Mirzamomen, Abhik Roychoudhury

该论文针对协议实现中的状态化漏洞（stateful bugs）提出了自动化的灰盒模糊测试方法。许多协议实现是反应式系统，其行为依赖当前状态，只有到达特定状态后输入特定事件序列才能触发漏洞。现有模糊测试方法缺乏对协议状态的明确认知，难以有效覆盖状态空间。通过分析Top-50最广泛使用的开源协议实现，作者发现所有实现都使用枚举类型（enum）的状态变量，并通过命名常量（如INIT、READY）表示当前状态。基于此观察，论文提出自动识别这些状态变量，并在模糊测试过程中跟踪其赋值序列，生成被探索状态空间的“地图”。该方法无需人工标注状态规范，即可引导模糊测试生成能触发状态转移的输入序列。实验结果显示，与基线灰盒模糊器相比，该状态化模糊器发现状态化漏洞的速度快两倍，从初始状态开始执行的态/转移序列数量高一个数量级，代码覆盖率提升两倍。在多个知名协议实现中发现了零日漏洞，并已分配8个CVE编号。该工作适合协议安全研究者、模糊测试工具开发者及软件测试工程师阅读。

💡 推荐理由: 提出无需状态规范自动识别协议状态变量的方法，显著提升状态化漏洞发现效率，解决协议模糊测试核心瓶颈。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Gen Zhang, Pengfei Wang 0010, Tai Yue, Xiangdong Kong, Shan Huang 0002, Xu Zhou 0004, Kai Lu 0001

灰盒模糊测试（CGF）是一种高效的软件测试技术，但现有方法难以同时优化多个目标。本文提出MobFuzz，一种基于多目标优化（MOO）的自适应灰盒模糊器。首先，将多目标优化过程建模为多人多臂老虎机（MPMAB）问题，自适应选择当前最合适的客观组合。其次，该模型处理能量调度，在选定客观组合下自适应分配能量给种子。此外，提出进化算法NIC，在无额外性能开销下同时优化多个目标。在12个真实程序及MAGMA数据集上的实验表明，MobFuzz优于单目标模糊器：能选择最优客观组合，使多个目标值提升高达107%，能耗最多降低55%；程序覆盖率提升最高6%，发现独特漏洞数量是基线模糊器的3倍；NIC算法性能提升至少2倍，开销仅约3%。

💡 推荐理由: MobFuzz提出的自适应多目标优化机制显著提升了模糊测试的覆盖率和漏洞发现能力，为复杂软件的安全测试提供了更高效的方法。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Haya Schulmann, Niklas Vogel

资源公钥基础设施（RPKI）已成为保护域间路由安全的关键技术。然而，RPKI软件的安全性测试长期停留在浅层解析阶段，现有模糊测试工具（如AFL++、libFuzzer）因假设每次执行输入单一且独立，无法处理RPKI仓库中数百个相互依赖、经密码学链接的对象。这种复杂性导致现有工具无法精确追踪多对象仓库中的代码覆盖率，破坏了基于反馈的探索机制，从而遗漏了RPKI验证中的多数严重漏洞。本文提出并实现了一种新型模糊测试工具CAT，通过连续采样和将函数作为侧信道实现大规模输入仓库中每个对象的精确覆盖率归因。同时，通过将解析输入转换为带标签的树结构，CAT能够在保持变异仓库密码学有效性的前提下进行结构和语义突变。CAT结合了非顺序模糊测试与模板无关的ASN.1变异引擎，相比顺序模糊测试吞吐量提升66倍，相比libFuzzer和先前工作多探索24%-47%的独特代码路径。在RPKI验证器上的评估中，CAT发现了21个先前未知的漏洞，其中8个已分配CVE（CVSS 7.5-9.8），包括缓冲区溢出、拒绝服务（DoS）和可被利用的仓库投毒逻辑缺陷。CAT已开源，以支持可重复性、进一步研究以及将方法推广至DNSSEC、TLS等其他基于密码学的复杂协议。

💡 推荐理由: RPKI是保护互联网路由安全的关键基础设施，其验证软件中的漏洞可能导致路由劫持、服务中断等严重后果。CAT工具显著提升了RPKI软件的安全性检测能力，发现的多个高危漏洞（CVSS最高9.8）直接威胁到全球路由安全。

🎯 建议动作: 建议RPKI实现者评估并集成CAT进行持续测试，关注已分配CVE并尽快修复；安全研究者可借鉴其方法应用于其他协议。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Kunpeng Zhang, Zongjie Li, Daoyuan Wu, Shuai Wang 0011, Xin Xia 0001

本文提出了一种名为 G2FUZZ 的新方法，旨在实现对非文本输入（如图像、视频、PDF 文件）的语法感知模糊测试。传统上，大型语言模型（LLM）擅长生成符合语法的文本和代码，但生成非文本输出却成本高昂且能力有限。G2FUZZ 利用 LLM 合成和变异输入生成器（以 Python 脚本形式），这些生成器能生成符合给定输入格式语法的非文本数据，然后由传统模糊器（如 AFL++）进一步变异这些数据以有效探索程序输入空间。该方法采用混合策略，结合 LLM 驱动的全局搜索和工业级模糊器的局部搜索。LLM 在合成和变异输入生成器方面表现出色，有助于跳出局部最优，从而实现与变异模糊器的协同效应；同时，LLM 仅在必要时被调用，显著降低了使用成本。作者在 TIFF 图像、MP4 音频和 PDF 文件等多种输入格式上评估了 G2FUZZ，在 UNIFUZZ、FuzzBench 和 MAGMA 三个平台上，与 AFL++、Fuzztruction 和 FormatFuzzer 等最先进工具相比，G2FUZZ 在代码覆盖率和漏洞发现方面均表现更优。该研究为将 LLM 应用于非文本输入的模糊测试提供了低成本、高效率的解决方案。

💡 推荐理由: 首次将 LLM 用于非文本输入的语法感知模糊测试，提出混合搜索策略，显著提升代码覆盖率和漏洞发现能力，且成本可控。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zhuo Zhang 0002, Wei You 0001, Guanhong Tao 0001, Yousra Aafer, Xuwei Liu, Xiangyu Zhang 0001

本文提出 StochFuzz，一种针对 stripped binaries 的模糊测试技术。Stripped binaries 由于缺少符号信息，传统 instrumentation 方法困难。现有方案如 QEMU 依赖硬件或昂贵的动态二进制翻译引擎，或做出不实际假设（如二进制中不含内联数据）。StochFuzz 利用模糊测试的高重复性特点，采用增量随机重写方法。在模糊测试过程中，它生成多个重写版本，通过大量测试运行验证其有效性，并使用概率分析聚合证据，逐步收敛到正确重写。实验在两组真实程序上进行，与 e9patch、ddisasm、RetroWrite 等基线相比，StochFuzz 在正确性和成本效益方面表现更优，性能与基于源码的模糊器相当。工具已开源。

💡 推荐理由: 为 stripped binaries 的模糊测试提供了一种无需硬件加速或昂贵引擎的轻量级方案，降低了二进制安全测试的门槛。

🎯 建议动作: 研究跟进，评估在内部模糊测试流程中的适用性

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhiyi Yao

本论文提出 FuzzPilot，一种针对 AFL++ 模糊测试工具的控制器，旨在将昂贵的推理过程移出变异热路径。当覆盖率出现平台期时，FuzzPilot 会快照当前语料库，生成候选变异配方（以 JSON 数据形式表示），在独立的 AFL++ 微活动中评估这些配方，并仅推广具有正验证奖励的配方。配方由原生自定义变异器消费，包含操作符权重、字节范围、语料库选择规则和字典令牌等。候选配方可来自本地规则或语言模型代理，后者可利用 Ghidra 提取的常量和反编译上下文作为目标提示。论文在 cJSON 上进行了故意狭窄的评估，每轮运行 5 次 14400 秒，比较了标准 AFL++ 和全功能 FuzzPilot。实验发现 cJSON 覆盖已饱和：基线 AFL++ 在约 2500 秒中位数时达到暴露的 269 条边上限。因此，实验无法证明语言模型提议能提高覆盖率或泛化到 cJSON 之外。在本次范围内，FuzzPilot 保持了吞吐量（中位 execs_per_sec 约为基线的 1.06 倍），并显示出描述性的更短中位平台期（1384 秒对比 2532 秒），但在 N=5 时差异不显著（Mann-Whitney p=0.42）。验证门评估了 20 个模型提出的配方，均未提升（奖励为零）。观察到的平台期减少更可能来自控制器的快照和重启机制，而非模型或配方变异器。本版本最好作为可审计的实现报告和正在进行的非饱和目标评估的基线。适合对模糊测试优化和 LLM 辅助测试感兴趣的研究人员阅读。

💡 推荐理由: FuzzPilot 尝试将 LLM 引入模糊测试配方生成，提供了一种结构化的平台期处理思路。尽管实验未证明显著改进，但其方法和实现细节值得关注，可作为安全测试自动化研究的参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Ze Sheng, Dmitrijs Trizna, Luigino Camastra, Zhicheng Chen, Qingxiao Xu, Jeff Huang

本文针对C/C++软件中模糊测试（fuzz testing）的关键瓶颈——fuzz harness（连接模糊器和库API的程序）的正确性问题，提出了一种自动化生成高质量harness的系统QuartetFuzz。现有的自动化harness生成工具无法系统性地确保harness的正确性，导致逻辑错误、API误用和生命周期违规等问题在源代码层面被忽视。随着基于大语言模型（LLM）的生成技术使harness创建规模化，缺乏质量控制反而使规模成为负担。QuartetFuzz的核心是四个原则框架：逻辑正确性（P1）、API协议合规（P2）、安全边界尊重（P3）和入口点充分性（P4），这是首个在源代码层面定义harness正确性的框架，包含数学规范与可实现的检查。该系统将这四个原则操作化为一个自主LLM智能体，通过“生成-检查-修复”循环，在模糊测试开始前确保生成的harness满足P1-P4。在涵盖C/C++、Java和JavaScript的23个开源项目上部署后，系统提交了42个漏洞报告，其中29个已被上游修复或确认（包括3个CVE），仅有2个被拒绝（误报率4.8%）。在生成过程中，内置的P1/P2检查自动拦截了58个由harness引起的崩溃，否则这些崩溃将成为误报。当作为质量审核工具应用于70个项目的586个现有生产环境harness时，系统识别出53个违规（45个已确认，35个已修复）。此外，作者发布了包含100个标注harness的数据集以供可复现评估。该工作对于提升模糊测试的有效性、减少误报、以及自动化安全测试基础设施有重要意义。

💡 推荐理由: 该研究首次从源代码层面定义并实现了fuzz harness的正确性框架，解决了LLM生成harness时质量失控的问题，显著降低了模糊测试中的误报率，并已产出实际漏洞修复（含3个CVE），对安全测试工程师和自动化工具开发者具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ze Sheng, Zhicheng Chen, Qingxiao Xu, Kewen Zhu, Jeff Huang

软件漏洞是严重的安全威胁，仅2025年报告的CVE数量就接近5万个。大型语言模型在自动化漏洞检测方面展现出潜力，但仍面临三大挑战：一是生成的漏洞报告误报率高且缺乏可重复验证；二是现有的LLM方法在漏洞定位时粒度选择次优，函数级分析在上下文过多时容易遗漏漏洞，而行级分析则缺乏足够的上下文；三是难以推理具有复杂跨函数依赖和触发条件的漏洞。针对这些问题，本文提出了FuzzingBrain V2，一个基于多智能体LLM的系统，其核心贡献包括：(1) 基于Google的OSS-Fuzz实现完全自动化的漏洞分析，确保所有报告的漏洞都可通过模糊测试复现；(2) 提出Suspicious Point这一基于控制流的新型抽象，实现最优粒度的精确漏洞定位；(3) 采用逻辑驱动的层次化函数分析与双层模糊测试，在资源约束下增强函数覆盖；(4) 基于MCP的静态和动态分析工具结合上下文工程，增强复杂漏洞的推理能力。在AIxCC 2025决赛的C/C++数据集上，FuzzingBrain V2实现了90%的检测率（40个漏洞中检测到36个）。在实际部署中，该工具在12个开源项目中发现了29个零日漏洞，所有漏洞均被维护者确认并修复，其中2个已分配CVE编号。

💡 推荐理由: 该研究提出了一种可复现、低误报的自动化漏洞发现系统，结合多智能体LLM与模糊测试，显著提升了真实世界漏洞检测效率，对蓝队和安全工程师评估LLM在漏洞挖掘中的实用性具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yujian Zhang, Yaokun Liu, Jinyu Xu, Yanhao Wang

本文提出了一种名为前驱感知定向灰盒模糊测试（PDGF）的新方法，旨在解决现有定向灰盒模糊测试（DGF）技术中存在的重量级和不完整性问题。DGF是一种面向目标的模糊测试技术，用于复现或发现软件漏洞，通常分为静态分析（预先获取程序结构信息）和动态执行（引导模糊测试向目标位置靠近）两个阶段。然而，现有方法在识别和接近目标时需额外开销，且由于间接调用或路径覆盖不足，导致对目标位置的测试不完整。PDGF将DGF重新定义为路径搜索问题，通过将程序划分为前驱区域和非前驱区域，并利用轻量级程序分析初始维护前驱集合，在动态执行中不断扩充该集合。PDGF引入了一种新的适应度指标——区域成熟度，用以表示前驱区域的覆盖率，并结合基于模拟退火的能量调度技术以及种子选择和变异策略，高效且全面地覆盖前驱区域。在包含30个真实程序目标点的基准测试上，PDGF与现有最先进的DGF工具进行了广泛比较，实验结果表明，PDGF在暴露时间、路径多样性和漏洞发现方面均优于竞争对手。此外，PDGF发现了9个新漏洞，其中6个已分配CVE编号。该工作对软件安全测试领域具有重要参考价值，适合安全测试研究员、模糊测试工具开发者和软件质量保障人员阅读。

💡 推荐理由: 针对现有定向灰盒模糊测试的效率与覆盖瓶颈，提出了轻量级的前驱感知机制，显著提升了路径多样性和漏洞发现能力，为实际软件安全测试提供了更有效的工具。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sicong Cao, Biao He 0002, Xiaobing Sun 0001, Yu Ouyang, Chao Zhang 0008, Xiaoxue Wu 0001, Ting Su 0001, Lili Bo, Bin Li 0006, Chuanlei Ma, Jiajia Li, Tao Wei 0002

本文提出了一种名为 ODDFuzz 的新型混合解决方案，用于高效发现 Java 反序列化漏洞。Java 反序列化漏洞是实际中严重的威胁，现有静态分析和模糊测试方法在有效性和效率上存在局限。ODDFuzz 首先执行轻量级静态污点分析，识别可能引发反序列化漏洞的候选 gadget 链，此步骤旨在定位所有候选者并避免漏报。随后，ODDFuzz 采用定向灰盒模糊测试（DGF）探索这些候选链，生成概念验证（PoC）测试用例以消除误报。具体而言，ODDFuzz 应用了结构感知的种子生成方法保证测试用例的有效性，并采用新颖的混合反馈和逐步向前策略指导定向模糊测试。在流行 Java 反序列化仓库 ysoserial 上的评估表明，ODDFuzz 发现了 34 条已知 gadget 链中的 16 条，而两个最先进的基线仅识别出 3 条。此外，在真实应用如 Oracle WebLogic Server、Apache Dubbo、Sonatype Nexus 和 protostuff 上，ODDFuzz 发现了 6 条先前未报告的可利用 gadget 链，并获得了 5 个 CVE 编号。

💡 推荐理由: ODDFuzz 为 Java 反序列化漏洞发现提供了高效的方法，在实际应用中已发现新漏洞并获得 CVE，对安全防御者理解攻击面和改进检测有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zu-Ming Jiang, Jia-Ju Bai, Zhendong Su 0001

该论文提出了一种名为DynSQL的有状态模糊测试方法，专门针对数据库管理系统（DBMS）进行测试。传统的DBMS模糊测试通常只生成简单的SQL查询，难以发现与复杂状态相关的深层漏洞。DynSQL的核心创新在于能够自动生成复杂且语义有效的SQL查询，同时保持对数据库状态（如表结构、索引、数据分布）的感知和追踪。它通过构建一个状态机模型来模拟数据库的演化过程，并利用该模型指导SQL生成，确保生成的查询在语法和语义上都有效，且能够覆盖更多数据库状态转换路径。实验在多个主流DBMS（如SQLite、MySQL、PostgreSQL等）上进行了评估，结果表明DynSQL比现有工具发现了更多独特漏洞，且生成的查询复杂度更高，代码覆盖率也显著提升。该工作为DBMS的安全性测试提供了一种新的有效手段，尤其适合发现与多语句交互、事务隔离、约束违反等相关的复杂缺陷。

💡 推荐理由: DBMS漏洞可能导致数据泄露或破坏，现有模糊测试方法难以生成复杂有效SQL。DynSQL通过有状态生成显著提升发现深层漏洞的能力，对数据库安全测试有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiaxing Cheng, Ming Zhou 0010, Haining Wang 0001, Xin Chen 0123, Yuncheng Wang, Yibo Qu, Limin Sun 0001

本文提出了一种基于大语言模型的模糊测试框架，旨在发现可编程逻辑控制器中的逻辑指令错误。该框架利用LLM生成有针对性的测试用例，通过分析PLC指令语义来触发深层逻辑缺陷。实验在多种PLC平台上验证了框架的有效性，成功检测到多个未知漏洞，展示了LLM在工控系统安全测试中的潜力。

💡 推荐理由: PLC是工业控制系统的核心，其逻辑指令错误可能导致严重物理后果。LLM驱动的方法有望提高自动化漏洞发现效率，对工控安全防御具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Justin Applegate, Andreas Kellas

Python 的原生序列化协议 pickle 虽然功能强大，但由于存在已知的安全风险，在处理不可信数据时非常不安全。它常被用于保存机器学习模型等场景，但攻击者可能通过构造恶意的 pickle 数据来执行任意代码。开发者有时会通过限制反序列化时的导入或使用静态/动态分析工具来缓解风险，但这些方法容易出错，且高度依赖对 Pickle 虚拟机（PVM）操作码的准确解释。Python 的三个原生 PVM 模块（pickle、cPickle、_pickle）之间存在实现差异，这些差异会导致错误检测恶意负载，从而削弱现有防御。为了高效且可扩展地识别这些差异，本文提出了 PickleFuzzer，一种基于生成的定制化模糊测试工具。PickleFuzzer 通过语法生成 pickle 对象，将其传递给每个实现，并检测抛出的异常或关键内部状态的变化。它通过比较每个测试实现的执行行为来确定差异，而不需要依赖于规范派生的 oracle。PickleFuzzer 发现了 14 个新的差异，其中 4 个是关键的，可用于绕过 Hugging Face 等流行模型托管平台上部署的安全扫描工具。作者向 Python 软件基金会披露了所有发现，并将安全问题报告给漏洞赏金平台，获得了 750 美元奖励。该工作证明了差分测试是识别重要 pickle 实现中安全相关差异的有效方法，并为通过更定向的模糊测试发现更深层的 pickle 漏洞提供了有前景的未来方向。

💡 推荐理由: PickleFuzzer 揭示了不同实现间的差异可被利用来绕过安全检查，直接影响 Hugging Face 等平台上的模型安全。安全从业者应关注此类间接漏洞检测方法。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yunlong Lyu, Peng Chen, Fengyi Wu, Junzhe Yu, Kit Long Hon, Hao Chen

库模糊测试是保障软件供应链安全的重要手段，但大规模采用仍面临成本高昂、环境配置复杂、测试用例生成难以满足复杂API约束，以及难以区分真实库bug与测试驱动导致的崩溃等问题。现有的基于LLM的自动化工具通常作为一次性代码生成器运行，忽略了运行时反馈，限制了代码覆盖深度和报告bug的有效性。本文提出FuzzAgent，一个基于多智能体系统的进化式库模糊测试框架。其核心洞察是：有效的库模糊测试本质上是迭代的——每次测试暴露新的覆盖瓶颈和崩溃，下一次测试应基于这些信号进化，而非从头开始。FuzzAgent由一组专门智能体组成，覆盖模糊测试全生命周期，包括：环境设置、harness生成、运行监控、覆盖分析、崩溃分类等。每个决策都基于具体的运行时证据，通过多轮迭代逐步优化harness套件，以实现更深覆盖和更精确的崩溃分析。在20个真实世界的C/C++库上，FuzzAgent无需人工干预即可完成完整模糊测试流程，达到179,619个分支，分别超越OSS-Fuzz、PromptFuzz、PromeFuzz和OSS-Fuzz-Gen 45.1%、73.2%、92.1%和191.2%。此外，FuzzAgent发现了102个真实库bug，其中78个已被上游维护者确认并修复。该工作展示了多智能体协作与进化学习在自动化库模糊测试中的巨大潜力。

💡 推荐理由: FuzzAgent创新性地将多智能体系统与进化学习结合，显著提升了库模糊测试的自动化程度和有效性，对软件供应链安全防御具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yunze Zhao, Yibo Zhao, Yuchen Zhang, Zaoxing Liu, Michelle L. Mazurek

该论文提出了GRIEF，一种面向LLM推理引擎的灰盒模糊测试工具，旨在发现服务层漏洞。当前LLM推理引擎（如vLLM、SGLang）引入了KV缓存、批处理、前缀共享、推测解码、适配器和多租户调度等机制，这些共享状态行为仅在真实并发工作负载下才显现，而标准的模型测试、安全测试和API测试无法覆盖。GRIEF将定时多请求轨迹作为一等输入，使用轻量级预言（oracle）检测崩溃、挂起、性能异常和静默输出损坏，并通过带log-probability检查的可控重放来确认可重现的服务层故障。在vLLM和SGLang上的早期测试中，GRIEF发现了15个漏洞，其中10个被开发者确认，包括2个CVE，涵盖KV缓存隔离失败、跨请求性能干扰、崩溃或活锁问题。结果表明，并发、缓存和状态重用可导致静默跨请求污染、邻区噪声拒绝服务以及延迟崩溃，且无需畸形输入或显式服务器错误。因此，并发的服务行为应作为LLM基础设施的一级安全与可靠性边界。

💡 推荐理由: LLM服务系统已成为关键基础设施，但其服务层漏洞（如跨请求污染、拒绝服务）难以通过常规测试发现。GRIEF首次系统性地针对服务层并发特性进行模糊测试，揭示了一类被忽视的安全风险，对保障LLM生产环境稳定性和数据隔离有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiwon Kim 0001, Dave Jing Tian, Benjamin E. Ujcich

本文提出Chimera，一个针对P4可编程网络基础设施的模糊测试工具，旨在检测跨控制平面和数据平面的多平面漏洞。传统P4安全研究主要关注数据平面，忽略了与控制平面的交互。作者通过分析开源P4实现中的历史漏洞报告，发现许多漏洞源于两个平面之间的相互影响。Chimera采用混合执行（concolic execution）来捕获控制-数据平面的交互，并提出了两种新的输入变异策略：解析器感知数据包变异（PAPM）和头部引导规则生成（HGRG），以利用跨平面和P4程序的依赖关系。在ONOS、Stratum和BMv2三个平台上的评估中，Chimera发现了7个新bug，包括3个安全关键漏洞，其中2个由多平面输入触发，2个为跨平面漏洞。与现有单平面模糊测试器相比，Chimera实现了更高的覆盖率和3.5倍的漏洞检测率。该研究适合网络协议安全研究人员、P4开发者和模糊测试工具开发者阅读。

💡 推荐理由: P4可编程网络扩大了攻击面，而现有工具忽视控制面与数据面的交互。Chimera首次系统性地检测多平面漏洞，能发现传统单平面工具遗漏的安全关键缺陷。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Patrick Jauernig, Domagoj Jakobovic, Stjepan Picek, Emmanuel Stapf, Ahmad-Reza Sadeghi

模糊测试是一种广泛应用于工业界的自动化软件测试技术，其中基于变异的模糊测试在实践中发现了大量错误。尽管学术界多年来一直在研究基于变异的模糊测试，但模糊器中算法的交互非常复杂，加上每个模糊器实例中的随机性，可能导致不可预测的效果。大多数改进这种脆弱交互的努力都集中在优化种子调度上，然而像Google的FuzzBench这样的实际结果表明，这些方法在实践中并未持续带来改进。另一种算法上改进模糊测试过程的方法是优化变异调度。不幸的是，现有的变异调度方法也未能令人信服，因为它们缺乏实际改进，或者需要过多用户可控参数，这些参数的配置需要目标程序的专家知识。这留下了如何巧妙地处理测试用例并实现可测量改进这一具有挑战性的问题。本文提出了DARWIN，一种新颖的变异调度器，它是首个在现实场景中展示模糊测试改进且无需引入额外用户可配置参数的方法，从而将这种方法开放给了广泛的模糊测试社区。DARWIN使用进化策略系统地优化和调整模糊测试过程中变异操作符的概率分布。作者基于流行的通用模糊测试器AFL实现了原型。DARWIN在自主覆盖实验、FuzzBench以及MAGMA基准测试中均显著优于最先进的变异调度器和AFL基线，在MAGMA中以最快速度找到了21个bug中的15个。最后，DARWIN在广泛使用的真实世界应用程序中发现了20个独特的bug（包括一个新bug），比AFL多出66%。

💡 推荐理由: DARWIN首次在无需额外用户参数的情况下，在真实场景中显著提升了变异模糊测试的效率，为模糊测试领域提供了一种即插即用的改进方案，具有广泛的实用价值。

🎯 建议动作: 研究跟进，考虑将DARWIN集成到现有模糊测试管道中。

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jianqiang Wang, Meng Wang, Qinying Wang, Nils Langius, Li Shi, Ali Abbasi 0002, Thorsten Holz

本文首次对引导加载程序（bootloader）进行了全面、系统的内存安全分析。引导加载程序在启动过程中连接固件与操作系统，是安全启动链的关键环节，负责验证操作系统并加载其镜像。随着代码库增长，引导加载程序暴露了更多攻击面，近年来发现了大量内存安全漏洞，部分可导致拒绝服务甚至绕过安全启动保护。然而，此前缺乏针对引导加载程序的系统性内存安全研究。本文基于对以往漏洞的调研，分析了多种引导加载程序的潜在攻击面，发现来自存储设备、网络等外设的恶意输入是主要攻击方式。为帮助开发者规模化检测漏洞，作者设计并实现了一个引导加载程序模糊测试框架。实验在9个引导加载程序中发现了39个漏洞（38个为新漏洞），其中14个存在于广泛使用的Linux标准引导加载程序GRUB中，部分漏洞在恰当利用下可绕过安全启动；截至论文发表时已有5个漏洞分配了CVE编号。29个漏洞已被开发者确认或修复。作者将框架原型开源。该研究适合引导加载程序开发者、安全研究人员、系统安全工程师阅读。

💡 推荐理由: 引导加载程序是安全启动链的核心组件，其内存安全漏洞可直接导致安全启动绕过，威胁整个系统的完整性。本文首次系统性分析此类风险，发现的38个新漏洞（含GRUB中14个）具有现实威胁。

🎯 建议动作: 研究跟进：相关引导加载程序维护者应参考论文中的漏洞列表和模糊测试框架，修补已知漏洞并集成Fuzzing到开发流程。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Samuel Groß, Simon Koch 0001, Lukas Bernhard, Thorsten Holz, Martin Johns

该论文提出了FUZZILLI，第一个专门针对JavaScript JIT编译器漏洞的模糊测试工具。现代JavaScript引擎依赖JIT编译器实现高性能，但JIT编译器的复杂性带来了安全漏洞风险。现有的模糊测试工具主要生成常规JavaScript代码，难以触发JIT编译器特有的语义，因此无法有效发现JIT相关漏洞。FUZZILLI通过设计一种中间表示（IR），能够生成专门触发JIT编译器优化、编译、运行时等阶段的测试用例，从而发现JIT编译器中的安全缺陷。作者实现了完整原型，并在六个月评估期内发现了17个已确认的安全漏洞，证明了靶向JIT模糊测试的可行性和现有模糊测试覆盖中的一个被危险忽略的空白。该研究为JavaScript引擎安全提供了新的测试方法论，对安全研究人员和浏览器厂商具有重要参考价值。

💡 推荐理由: JIT编译器漏洞是当前浏览器安全的重要攻击面，但现有模糊测试工具对此覆盖不足。FUZZILLI首次提出针对性方案，填补了关键空白。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yuan Chang, Chun-Chia Huang, Tatsuya Mori, Hsu-Chun Hsiao

该论文在ArXiv上以海报形式发表，提出了一种名为YFuzz的数据驱动模糊测试方法。研究指出，传统的代码覆盖率引导的灰盒模糊测试存在关键局限性：即使覆盖了相关代码，也可能遗漏bug，因为触发bug通常需要满足特定条件，而代码覆盖率仅关注代码是否被执行，无法全面捕捉这些条件。YFuzz旨在通过数据分析来指导模糊测试，以生成更可能触发bug的输入。由于本研究仅提供摘要，未公开具体方法细节和实验评估，因此属于初步研究展示。适合对模糊测试改进感兴趣的研究人员阅读。

💡 推荐理由: 指出了覆盖率引导模糊测试的固有局限，并提出了数据驱动的新思路，对提升模糊测试效率有潜在价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.3)

👥 作者: Jiaying Meng, Xuewei Feng, Qi Li, Min Liu, Ke Xu

工业控制协议（ICP）对于工业基础设施的可靠性和稳定性至关重要，但其安全性受到规范盲点（specification-blindness）瓶颈的根本性影响。现代模糊测试工具受限于基于观测的推理，难以深入协议状态或检测微妙的语义偏差。本文提出了AFL-ICP，一种自主模糊测试框架，开创了规范驱动的范式。AFL-ICP包含一个上下文感知的规范形式化流水线，可将复杂规范转换为严格的机器可执行语法。在此基础上，AFL-ICP利用大语言模型（LLM）实现自动化的协议适配和种子生成，从而以最少的人工工作快速扩展到新协议。此外，它还包含一个基于LLM的差分检查器，将实现输出与规范要求进行交叉引用，以检测现有模糊测试工具无法发现的细微语义和逻辑错误。作者实现了AFL-ICP，并在四种广泛使用的ICP（包括开源和闭源变体）上进行了评估。结果表明，AFL-ICP在覆盖率方面显著优于最先进的模糊测试工具，并发现了24个先前未知的漏洞，已获得受影响供应商（如FreyrSCADA）的确认。其中，识别出的漏洞包括16个语义和逻辑错误，这些错误可能悄无声息地破坏工业操作并降低服务可用性。本文适合工业控制系统安全研究人员、模糊测试工具开发者以及工控协议设计者阅读。

💡 推荐理由: 该研究提出了一种利用LLM增强模糊测试的新范式，能系统性地发现工控协议中隐蔽的语义和逻辑漏洞，对提升工业安全至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Meng Wang, Philipp Görz, Joschua Schilling, Keno Hassler, Liwei Guo, Thorsten Holz, Ali Abbasi 0002

业务逻辑漏洞是软件安全中一个关键且难以检测的问题，它们源于应用程序设计或实现中的错误，使攻击者能够触发非预期的行为。传统的基于模糊测试的动态分析工具在检测内存安全漏洞方面表现出色，但往往无法发现业务逻辑漏洞，因为这些缺陷需要理解特定于应用程序的语义上下文。已有的推测上下文的方法由于依赖启发式和非可移植的语言特性，本质上是脆弱且不完整的。由于业务逻辑漏洞在CWE Top 40中占据27个，是实际中最危险的软件弱点之一，现有工具的盲点令人担忧。本文提出了ANOTA，一种新型的人机协同的sanitizer框架。ANOTA引入了一个轻量级、用户友好的注解系统，使用户能够直接将其领域知识编码为轻量级注解，这些注解定义了应用程序的预期行为。运行时执行监视器观察程序行为，将其与注解定义的策略进行比较，从而识别指示漏洞的偏差。为了评估ANOTA的有效性，作者将其与最先进的模糊测试器结合，与其他针对相同目标的流行漏洞发现方法进行比较。结果表明，ANOTA+FUZZER在有效性上优于其他方法。具体来说，ANOTA+FUZZER成功复现了43个已知漏洞，并在评估期间发现了22个以前未知的漏洞（分配了17个CVE）。这些结果证明，ANOTA为发现传统安全测试技术经常遗漏的复杂业务逻辑缺陷提供了一种实用且有效的方法。

💡 推荐理由: 业务逻辑漏洞是实际中最常见但最难以自动化检测的安全弱点之一，ANOTA提出了一种实用的注解式sanitizer方案，填补了现有工具的盲区。

🎯 建议动作: 研究跟进，评估集成到现有测试管线的可行性

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Johannes Lenzen, Mohamadreza Rostami, Lichao Wu, Ahmad-Reza Sadeghi

现代CPU作为黑盒，其微架构漏洞日益复杂，传统分析手段难以应对。虽然已有通过繁琐手工挖掘出的关键漏洞，但缺乏自动化、系统化的后硅漏洞检测框架。本文提出Fuzzilicon，首个面向真实x86 CPU的后硅模糊测试框架，通过引入微码级内省填补了可见性鸿沟。Fuzzilicon的核心是新型微架构反馈提取技术：通过逆向工程Intel的专有微码更新接口，实现对处理器微架构的深度内省，并开发了最小侵入性的插桩方法，集成于基于Hypervisor的模糊测试工具链中，实现了无需寄存器传输级（RTL）访问的精确反馈引导输入生成。在Intel Goldmont微架构上的实验表明，Fuzzilicon发现了5项重要发现，包括两个此前未知的微码级推测执行漏洞，并自动重现了之前手动检测到的μSpectre类漏洞。与基线技术相比，Fuzzilicon将覆盖率收集开销降低最多31倍，并达到了16.27%的可挂钩位置唯一微码覆盖率，成为此类首个实证基线。该框架是一种实用、覆盖引导且可扩展的后硅模糊测试方法，为自动化发现复杂CPU漏洞奠定了新基础。

💡 推荐理由: Fuzzilicon首次实现了面向真实x86 CPU的自动化后硅模糊测试，通过微码级反馈彻底改变了CPU漏洞挖掘范式，对硬件安全研究和防御具有里程碑意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zhicong Zheng, Jinghui Wu, Shilin Xiao, Yanze Ren, Chen Yan 0001, Xiaoyu Ji 0001, Wenyuan Xu 0001

本文提出了一种名为 PhyFuzz 的新型传感器漏洞检测方法，利用物理信号模糊测试来发现传感器中的安全缺陷。传感器在现代系统中广泛应用，但物理层面的攻击往往被忽视。PhyFuzz 通过生成物理信号（如声波、电磁波等）并注入到传感器中，观察系统的异常行为，从而检测出传感器对物理干扰的脆弱性。该方法系统性地探索了传感器物理输入空间，结合自适应变异策略以提高漏洞发现效率。实验在多种实际传感器设备上进行，结果表明 PhyFuzz 能够有效发现传统软件模糊测试无法触及的物理层漏洞，例如传感器饱和、信号干扰导致的错误输出等。该研究为物联网和嵌入式系统安全提供了新的测试视角，有助于开发更鲁棒的传感器系统。主要贡献包括：1）提出了物理信号模糊测试的通用框架；2）设计了针对传感器特性的变异生成算法；3）通过案例验证了方法的有效性。

💡 推荐理由: 传感器是物联网和智能系统的核心，其物理层漏洞可被远程利用导致严重后果。PhyFuzz 提供了一种自动化检测手段，帮助安全团队在部署前发现并修复这些隐蔽的脆弱性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yuncheng Wang, Yaowen Zheng, Puzhuo Liu, Dongliang Fang, Jiaxing Cheng, Dingyi Shi, Limin Sun 0001

该论文提出了一种名为ADGFUZZ的模糊测试方法，专门针对机器人车辆（如无人车、无人机）的软件安全测试。机器人车辆通常依赖复杂的任务依赖关系（如传感器、执行器、控制逻辑之间的时序与数据耦合），传统模糊测试难以有效覆盖这些依赖路径。ADGFUZZ通过静态分析提取程序中的赋值依赖关系（assignment dependency），构建依赖图，并利用该图指导输入变异，优先触发涉及多组件交互的深层漏洞。实验在多个真实机器人车辆固件（如ArduPilot、PX4）上进行，结果表明ADGFUZZ相比现有工具（如AFL、Fuzzing架构）能显著提高代码覆盖率和漏洞发现效率，并挖掘出多个未知安全缺陷。该方法的核心贡献在于将依赖关系建模引入CPS模糊测试，将测试导向关键交互路径，降低了盲目变异的开销。

💡 推荐理由: 机器人车辆（如自动驾驶汽车、无人机）的软件漏洞可能导致严重物理事故。ADGFUZZ首次利用任务依赖指导模糊测试，提升了此类CPS系统的安全检测能力，值得安全测试工具开发者与CPS厂商关注。

🎯 建议动作: 研究跟进，评估方法是否可引入自研模糊测试框架

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peihong Lin, Pengfei Wang, Lei Zhou, Gen Zhang, Xu Zhou, Wei Xie, Zhiyuan Jiang, Kai Lu 0001

该论文提出了一种名为PortRush的硬件模糊测试框架，旨在检测由写端口竞争引发的微架构侧信道漏洞。写端口竞争是现代超标量处理器中多个执行单元同时尝试写入同一物理端口时产生的资源冲突现象，这种竞争可能导致时序差异，进而被攻击者利用来窃取敏感信息。PortRush通过自动化生成针对写端口竞争的高效测试用例，利用硬件性能计数器实时监控微架构事件，从而触发并识别潜在的信息泄露路径。该框架结合了静态分析和动态模糊测试技术，能够系统地探索处理器微架构中的竞争条件，并自动确认漏洞的可利用性。实验在多种主流处理器（如Intel Core和AMD Ryzen系列）上进行，成功发现了多个之前未知的写端口竞争侧信道漏洞，证明了该方法的有效性。PortRush的贡献在于提出了一种新的自动化检测手段，填补了针对写端口竞争这一特定侧信道攻击类型在安全测试工具方面的空白，为处理器安全评估提供了重要支持。

💡 推荐理由: 写端口竞争是微架构侧信道攻击的新兴向量，传统侧信道检测工具难以覆盖，PortRush提供了一种自动化、系统化的检测方法，对保障CPU安全和数据机密性具有前瞻意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Eunkyu Lee, Junyoung Park, Insu Yun

本文提出了一种针对实时操作系统（RTOS）内核的上下文自适应函数级模糊测试方法，名为RTCON。RTOS广泛应用于嵌入式系统和物联网设备，其内核安全性至关重要。传统模糊测试通常以系统调用或整个程序为输入，但RTOS内核具有高度耦合的上下文依赖关系，例如中断处理、任务调度和资源锁定，这使得通用模糊测试难以有效探索内核状态空间。RTCON创新性地在函数级别进行模糊测试，并利用上下文信息（如当前运行任务、中断状态、锁持有情况等）动态调整测试输入和路径选择。具体地，该方法通过静态分析提取函数间的上下文依赖图，并在执行过程中实时监控上下文变化，从而生成更导向的测试用例，提高对临界区、中断服务例程和竞争条件等深层漏洞的覆盖能力。实验在多个主流RTOS内核（如FreeRTOS、Zephyr）上进行，结果表明RTCON在代码覆盖率、漏洞发现数量和测试效率方面显著优于现有通用模糊测试工具，成功发现了多个未知的内存破坏和死锁漏洞。本文的主要贡献包括：定义了RTOS内核模糊测试的上下文自适应问题，提出了函数级测试生成算法，设计并实现了原型工具RTCON，并通过实证验证了其有效性。

💡 推荐理由: RTOS内核漏洞可能导致嵌入式设备被完全控制，影响关键基础设施。RTCON提供了一种针对RTOS特性的高效模糊测试方法，能发现传统工具遗漏的上下文相关漏洞，提升安全审计能力。

🎯 建议动作: 研究跟进，评估其在自身RTOS安全测试流程中的适用性

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiangan Ji, Chao Zhang 0008, Shuitao Gan, Lin Jian, Hangtian Liu, Tieming Liu, Lei Zheng, Zhipeng Jia

本文提出 FirmAgent，一种融合模糊测试与大型语言模型（LLM）智能体的方法，用于自动化发现物联网（IoT）固件中的安全漏洞。研究背景是：IoT 设备数量激增，其固件普遍存在内存破坏、逻辑缺陷等漏洞，而传统模糊测试在固件平台上面临代码覆盖率低、种子生成盲目等挑战。FirmAgent 核心思路是让 LLM 智能体理解固件结构（如二进制文件解析、文件系统识别）后，动态指导模糊测试的种子生成与变异策略。具体而言，智能体先通过静态分析提取固件关键函数、协议处理逻辑等信息，再结合运行时覆盖率反馈，生成更可能触发深层路径的测试用例。实验在多个真实 IoT 固件（如路由器、摄像头）上进行，与 AFL、LibFuzzer 等基线工具对比，FirmAgent 在漏洞发现数量、代码覆盖率及触发崩溃效率上均有显著提升，成功挖掘出多个未公开的零日漏洞。主要贡献包括：1）首次系统性将 LLM 智能体与模糊测试结合用于固件安全；2）提出智能体引导的种子生成机制；3）构建专用数据集并公开评估结果。本文适合固件安全研究人员、AI 辅助漏洞挖掘开发者阅读。

💡 推荐理由: 传统模糊测试在IoT固件上效率低，FirmAgent借助LLM的语义理解能力智能化指导测试，开辟了新型漏洞发现范式，能显著提升固件安全评估效率。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Manuel Andreas, Fabian Specht, Marius Momeu

本文提出了一种名为 HyperMirage 的新型混合虚拟 CPU 模糊测试方法，旨在解决传统模糊测试在虚拟化环境中状态覆盖不足的问题。该方法通过直接操纵虚拟CPU的内部状态（如寄存器、内存映射和特权级），结合符号执行和覆盖率引导的变异策略，显著提升了对虚拟化执行路径的探索效率。实验在QEMU、KVM和Bhyve等主流虚拟化平台上进行，结果显示HyperMirage相比现有工具（如Hypercube和TriforceAFL）在代码覆盖率和漏洞发现数量上均有大幅提升，共发现20个先前未知的虚拟化实现漏洞，其中12个被认定为安全关键。论文详细描述了状态快照与恢复机制、混合执行引擎的设计以及针对虚拟CPU特定指令集的模糊策略。该研究属于学术界对虚拟化安全测试方法的创新，适合虚拟化平台开发者、安全研究员和漏洞挖掘专家阅读。

💡 推荐理由: 虚拟化是现代云基础设施的核心，其安全漏洞影响面极广。HyperMirage提出直接状态操纵方法，突破了传统模糊测试在虚拟CPU测试中的瓶颈，为发现虚拟化层深层漏洞提供了有效手段。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nuno Sabino, Darion Cassel, Rui Abreu 0001, Pedro Adão, Lujo Bauer, Limin Jia 0001

该论文提出了一种针对DOM-XSS（文档对象模型跨站脚本）漏洞的自动化检测方法。核心思路是将网页交互模糊测试与URL组件合成相结合。具体而言，方法首先通过模糊测试生成各种用户交互事件（如点击、输入、滚动等），触发网页中的JavaScript逻辑；同时，系统会动态合成包含恶意payload的URL组件（如哈希、查询参数等），并注入到页面中，以观察是否触发执行。实验在真实世界的网站集上验证了该方法的有效性，发现多个未知的DOM-XSS漏洞，并与现有工具进行了对比。该方法不需要访问页面源代码，仅通过黑盒测试即可检测，适合大规模自动化扫描。主要贡献包括：1）设计了一种兼顾交互覆盖和URL变异的模糊测试策略；2）提出了一种基于执行上下文追踪的漏洞判定机制；3）在真实环境下展示了较高的检出率和较低的误报率。

💡 推荐理由: DOM-XSS是Web安全中最难防御的漏洞之一，因其完全在客户端执行且绕过服务器过滤。该研究提供了一种自动化的黑盒检测方案，可帮助安全团队在无源码场景下快速发现此类漏洞。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Kaihua Wang, Jianjun Chen 0005, Pinji Chen, Jianwei Zhuge, Jiaju Bai, Haixin Duan

本文对QUIC协议实现中的逻辑漏洞进行了系统性研究。QUIC作为一种基于UDP的传输层协议，旨在提升HTTP/3的性能与安全性，但不同实现（如Chromium、Quinn、msquic等）可能因状态机处理不当、参数校验缺失或并发控制缺陷而引入逻辑漏洞。作者首先构建了针对QUIC实现的黑盒与白盒测试框架，通过模糊测试和手工分析相结合的方式，对主流实现进行了深度审计。研究发现多类逻辑漏洞，包括连接迁移机制中的权限绕过、0-RTT数据重放攻击、流控制窗口计算错误以及握手状态跳跃导致的内存破坏。实验表明，这些漏洞可导致拒绝服务、信息泄露或中间人攻击。论文进一步提出了基于状态机建模的静态分析工具，用于自动检测此类缺陷，并在真实实现中发现了多个未见报的漏洞。该工作为QUIC实现的安全性评估提供了系统方法论，对协议标准化和实现优化具有重要参考价值。

💡 推荐理由: QUIC是HTTP/3的基础，其实现漏洞直接影响现代Web通信的安全；本文首次系统揭示该领域逻辑漏洞类型，有助于防御者提前识别风险。

🎯 建议动作: 研究跟进：建议QUIC实现方及安全团队参考论文中的测试框架进行内部审计，并关注后续PoC发布。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yu Liang, Peng Liu

该论文提出了一种自底向上基于语法的 SQL 生成方法，用于高效检测数据库管理系统（DBMS）中的漏洞。与传统自顶向下的生成方式不同，该方法从基本语法单元（如关键字、运算符）开始，逐步构建复杂 SQL 语句，从而覆盖更多边界情况和异常路径。通过将 SQL 语法规则编码为状态机，并采用随机搜索与约束求解相结合的策略，生成的 SQL 语句能够触发 DBMS 解析器、优化器和执行引擎中的深层错误。实验在多个主流 DBMS（如 MySQL、PostgreSQL 等）上进行，结果表明该方法在漏洞发现效率和代码覆盖率方面均优于现有模糊测试工具（如 SQLancer、SQLsmith）。论文还分析了检测到的漏洞类型，包括崩溃、断言失败和逻辑错误，并证明了方法在自动化测试中的实用性。对于安全团队而言，该方法可集成到 CI/CD 管道中，持续发现 DBMS 0day 漏洞。

💡 推荐理由: DBMS 0day 漏洞可能导致数据泄露或拒绝服务，本文提出更高效的自动化检测方法，能够降低人工审计成本，提升防守方对数据库安全的掌控力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shuangxiang Kan, Xiao Cheng, Yuekang Li

该论文提出了 MUTATO，一种通过自适应 API 选项变异来增强模糊测试驱动（fuzz driver）的方法。在库模糊测试中，模糊驱动程序通常需要构造 API 调用序列及其参数，但现有工具往往忽略了 API 选项（如配置参数或标志位）的变异，导致测试覆盖率受限。MUTATO 设计了一种轻量级的自适应策略，能够基于动态反馈（如代码覆盖率增长情况）自动调整选项变异的概率和范围，从而更有效地探索库的深层路径。方法包括三个关键组件：选项类型推断（从函数签名中识别选项参数）、变异概率调度（使用带宽分配模型）以及交叉影响处理（考虑多个选项间的组合）。在多个真实库（如 libxml2、libpng、OpenSSL）上的实验表明，MUTATO 相比基线工具（如 AFL++ 的默认驱动）实现了平均 23% 的代码覆盖率提升和 31% 的崩溃发现数量增加。该工作为自动化模糊测试驱动生成后的优化提供了新思路，尤其适用于具有大量配置选项的库。

💡 推荐理由: 库模糊测试是发现底层漏洞的关键手段，但选项参数的变异长期被忽视。MUTATO 自动化提升了测试效率，可直接增强现有模糊测试工具链，降低安全人员的手动调优成本。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yongheng Chen, Rui Zhong, Hong Hu 0004, Hangfan Zhang, Yupeng Yang, Dinghao Wu, Wenke Lee

本文提出了一种通用的语言处理器模糊测试框架，旨在解决现有模糊测试工具针对特定语言处理器（如JSON解析器、XML解析器等）定制化程度高、通用性差的问题。该框架的核心创新在于引入了语义验证机制，能够自动识别并过滤掉语义无效的测试用例，从而大幅提升模糊测试的效率和覆盖率。方法上，作者设计了一个统一的接口来适配多种语言处理器的输入规范，并利用轻量级的语义模型对生成的测试用例进行实时验证。实验在多个流行的语言处理器（包括libxml2、json-c、yaml-cpp等）上进行，结果表明该框架在代码覆盖率、漏洞发现数量上均显著优于现有的专用模糊测试工具。主要贡献包括：1）提出了一种通用且高效的语言处理器模糊测试方法；2）开发了可扩展的语义验证模块；3）通过大量实验证明了方法的有效性。适合安全研究人员和模糊测试工具开发者阅读。

💡 推荐理由: 语言处理器（如解析器）是安全攻击面的高发区域，现有模糊测试工具缺乏通用性。本文提出的通用框架能显著降低测试成本并提升漏洞发现能力，对蓝队和开发人员评估自身软件安全性具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mario Rodríguez Béjar, B. Romera-Paredes, Jose L. Hernández-Ramos

本文提出 FunFuzz，一个基于大型语言模型（LLM）的进化模糊测试框架，旨在解决传统 LLM 驱动模糊测试中 prompt 初始化和采样方差导致的探索效率低下和输入冗余问题。FunFuzz 采用多岛进化算法，并行运行多个隔离的搜索过程，并定期迁移高价值候选输入以维持种群多样性。初始生成 prompt 从文档中提取，每个岛屿使用特定主题的指令初始化，随后通过反馈引导的 prompt 选择机制持续调整 prompt。在模糊测试过程中，候选输入根据增量编译器覆盖率进行排序，同时利用编译器内部失败信号识别崩溃触发输入。在 GCC 和 Clang 编译器上的 24 小时连续实验表明，FunFuzz 相比之前的 LLM 驱动基线方法实现了更高的编译器覆盖率，并发现了更多独特的编译器内部失败触发输入。该方法有效结合了 LLM 的输入生成能力和进化算法的全局搜索能力，为编译器等结构化输入场景的模糊测试提供了新思路。

💡 推荐理由: FunFuzz 将 LLM 与进化算法有机结合，显著提升了编译器模糊测试的覆盖率和缺陷发现能力，对于软件安全测试领域具有创新意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yousra Aafer, Wei You 0001, Yi Sun 0004, Yu Shi, Xiangyu Zhang 0001, Heng Yin 0001

本文提出了一种针对Android SmartTV的日志引导模糊测试方法，旨在自动化发现这些设备中的安全漏洞。Android SmartTV设备由于其封闭性、资源受限以及定制化系统，传统的模糊测试方法难以有效覆盖其攻击面。作者设计了Log-Guided Fuzzing（LGF）框架，通过实时捕获设备运行时的系统日志和应用日志，解析日志中的状态信息（如Wifi状态、蓝牙事件、输入事件等），并利用这些信息动态调整模糊测试的输入生成策略，从而提高代码覆盖率并触发深层逻辑。具体而言，LGF将日志解析为结构化的事件序列，基于事件之间的依赖关系构建行为模型，然后指导Fuzzer生成符合设备实际运行状态的有效输入。实验在多个品牌的Android SmartTV上进行了评估，发现多个此前未知的漏洞，包括系统服务崩溃、权限绕过和远程代码执行等严重问题，证明了该方法在真实设备上的有效性。该研究为IoT和智能电视领域的漏洞挖掘提供了新思路。

💡 推荐理由: Android SmartTV用户广泛，但安全研究不足；该方法通过日志引导突破模糊测试瓶颈，可有效发现TV固件及预装应用中的高危漏洞，防止隐私泄露和远程控制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)