👥 作者: Seulbae Kim, Major Liu, Junghwan John Rhee, Yuseok Jeon, Yonghwi Kwon 0001, Chung Hwan Kim
该论文提出了一种名为 DriveFuzz 的模糊测试工具,旨在自动发现自动驾驶系统(ADS)中的安全缺陷。自动驾驶系统通常依赖深度神经网络处理传感器数据并做出驾驶决策,但这类系统可能因异常输入(如传感器噪声、不规则路况)而表现出不安全行为。然而,传统的模糊测试方法难以有效应用于复杂的 ADS 环境,因为它们需要模拟真实的物理世界交互。DriveFuzz 的关键创新在于引入了一种“驾驶质量引导”的模糊测试策略:它基于车辆控制信号的平滑性、碰撞风险等指标来量化每次测试输入的“驾驶质量”,并利用该指标指导变异算子生成更可能触发不安全行为的测试场景。具体而言,DriveFuzz 通过将原始传感器数据(如激光雷达点云、摄像头图像)作为输入,并利用一个反馈循环,选择那些导致驾驶质量下降的变异输入进行后续探索。论文在工业级自动驾驶模拟器(如 CARLA、LGSVL)上进行了评估,结果表明 DriveFuzz 能够有效发现多种类型的 bug,包括车辆偏离车道、碰撞障碍物、无视交通标志等,且发现的 bug 数量显著优于现有基线方法。该工作发表于 ACM CCS 2022,附录包含更多实验细节。
💡 推荐理由: 自动驾驶系统的安全性直接关乎人身安全,DriveFuzz 提供了一种自动化发现驾驶决策逻辑缺陷的方法,有助于在部署前识别高风险场景,减少路测风险。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jan Drescher, David Klein 0001, Martin Johns
本文针对现代浏览器(Chrome、Firefox)的站点隔离(Site Isolation)安全架构,提出了一种自动检测逻辑漏洞的方法。站点隔离通过将不同站点的渲染进程隔离到独立的沙箱中,以缓解Spectre等微架构攻击和渲染器内存破坏的影响。其安全依赖于操作系统进程隔离和浏览器进程的正确策略实施:浏览器进程需追踪每个渲染进程对应的站点上下文,并通过IPC消息限制跨站网络通信,遵守同源策略和CORS。若站点映射或策略实施存在逻辑缺陷,则可能导致站点隔离绕过漏洞,使攻击者能够跨站执行恶意JavaScript或窃取cookie。由于此类语义漏洞不会产生明显崩溃,传统工具(如Address Sanitizer)难以检测。作者提出了第一个自动检测方法:设计了一个新颖的检测规则,通过识别进程级别的跨站数据泄露来定位语义漏洞;并开发了一个模糊测试工具,模拟被攻破的渲染进程,通过挂钩IPC通信来利用浏览器进程作为“被混淆的代理人”,尝试发送恶意IPC消息。实验在Chrome和Firefox上发现了四个安全漏洞:其中三个漏洞允许跨站数据泄露,第四个漏洞可导致对受害者站点的完全控制。该研究为浏览器安全测试提供了自动化手段,适用于浏览器厂商和安全研究人员进一步评估和加固站点隔离实现。
💡 推荐理由: 站点隔离是浏览器核心安全机制,其绕过漏洞威胁所有用户数据。该工作首次实现自动化检测,填补了针对语义漏洞的空白,能帮助厂商在漏洞被利用前发现并修复。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Nilo Redini, Andrea Continella, Dipanjan Das 0002, Giulio De Pasquale, Noah Spahn, Aravind Machiry, Antonio Bianchi, Christopher Kruegel, Giovanni Vigna
本文针对物联网设备固件难以提取和仿真的问题,提出了一种利用配套移动应用生成有效且欠约束的模糊测试输入的方法。关键洞察是:在配套应用中存在一类称为“模糊触发函数”的代码位置,它们位于输入验证代码之后、数据变换函数(如网络序列化)之前。通过在这些点注入模糊数据,可以生成既不被应用端校验限制、又不被设备因格式无效而丢弃的测试用例。作者开发了工具Diane,结合静态分析和动态分析在Android配套应用中定位模糊触发函数,并自动对物联网设备进行黑盒模糊测试。在11款流行物联网设备上,Diane发现了11个漏洞,其中9个为零日漏洞。实验表明,若不使用模糊触发函数,许多设备无法生成触发漏洞的输入。该方法有效提升了IoT黑盒模糊测试的效率和深度。
💡 推荐理由: 为物联网设备安全测试提供了一种实用的黑盒模糊测试方法,可发现传统方法难以触及的漏洞,对提升IoT生态安全性有重要意义。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Peihong Lin, Pengfei Wang 0010, Xu Zhou 0004, Wei Xie 0007, Gen Zhang, Kai Lu 0001
定向灰盒模糊测试(DGF)旨在通过预定义目标位置强化对易受攻击代码区域的测试。现有DGF技术主要基于启发式算法优化适应度指标,但这些方法依赖历史执行信息,对尚未执行的路径缺乏预见性,导致难以处理具有复杂约束的路径,从而降低DGF效率。本文提出DeepGo,一种预测性定向灰盒模糊测试器,通过结合历史与预测信息,引导DGF沿最优路径到达目标位置。首先,DeepGo引入路径转换模型,将DGF建模为通过特定路径转换序列到达目标的过程;变异生成的新种子会引发路径转换,高奖励路径转换序列对应的路径更有可能到达目标。其次,为预测未执行的路径转换及其奖励,DeepGo使用深度神经网络构建虚拟集成环境(VEE),该环境逐步模仿路径转换模型并预测路径转换的奖励。然后,开发了模糊测试强化学习(RLF)模型,生成具有最高序列奖励的转换序列,RLF结合历史与预测路径转换生成最优序列,并指导变异策略。最后,为执行高奖励路径转换序列,提出动作组概念,综合优化模糊测试关键步骤,高效实现最优路径。实验在包含25个程序、100个目标位置的基准测试集上进行,结果表明DeepGo在到达目标位置的速度上比AFLGo、BEACON、WindRanger和ParmeSan分别快3.23倍、1.72倍、1.81倍和4.83倍,在暴露已知漏洞方面分别快2.61倍、3.32倍、2.43倍和2.53倍。
💡 推荐理由: 该研究通过引入预测性路径规划和强化学习,显著提升了定向灰盒模糊测试的效率和漏洞发现能力,为安全测试工具的智能化改进提供了新思路。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Peng Xu, Yanhao Wang, Hong Hu 0004, Purui Su
本文提出COOPER,一种用于测试脚本语言(如JavaScript)与低级语言(C/C++)之间绑定代码的协同变异方法。许多商业软件(如Adobe Acrobat)集成脚本语言以实现动态文件修改,但脚本与底层实现之间的绑定层因数据转换和表示形式而存在语义不一致和安全漏洞。现有测试方法仅关注脚本侧,忽略需要特殊程序本机输入的缺陷。COOPER通过协同变异同时生成脚本端输入和程序本机输入,以触发绑定代码中的不一致性,从而发现潜在漏洞。实验结果表明,COOPER能够有效检测出真实世界软件中隐藏的绑定缺陷,包括一些先前未发现的漏洞,证明了其在提高软件安全性方面的价值。该方法适用于任何使用脚本语言扩展功能的系统,特别是PDF解析器、浏览器插件等场景。
💡 推荐理由: 揭示了脚本语言与底层代码间绑定层的安全盲区,提供了一种针对性的自动化测试方法,有助于发现传统fuzzing遗漏的严重漏洞。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Alvin Charles, Adrian Herrera, Peter Oslington, Alwen Tiu
该论文提出了一种名为PeAR的静态二进制重写框架,旨在解决闭源软件二进制级模糊测试中的覆盖率引导问题。传统上,二进制模糊测试依赖动态二进制插桩(DBI)来获取覆盖率信息,但DBI会引入显著运行时开销。静态二进制插桩(SBI)虽可避免运行时开销,但常被认为存在精度和正确性挑战。作者通过实验表明,利用现有成熟框架可以实现精确且可扩展的SBI,并基于此构建了PeAR框架。PeAR支持多种现代模糊器特性,包括延迟初始化、持久模式和共享内存模糊测试。作者在FUZZBENCH基准上进行了总计4.25 CPU年的模糊测试评估,结果表明:(i) PeAR成功插桩了88%的FUZZBENCH目标,与最佳SBI模糊器相当;(ii) 在使用持久模式和共享内存模糊测试时,中位数吞吐量提升了4倍;(iii) 达到了与编译器插桩相当的覆盖率。这些结果证明SBI是二进制模糊测试中一种实用且有效的技术,现代二进制重写框架能够在高粒度下应用复杂插桩,且性能损失极小。该研究适合对二进制安全、模糊测试、静态分析感兴趣的从业者阅读。
💡 推荐理由: 该工作展示了静态二进制插桩在二进制模糊测试中的可行性,为闭源软件漏洞挖掘提供了低开销、高吞吐的替代方案,有助于提升工业界对静态重写技术的信心。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Matheus E. Garbelini, Vaibhav Bedi, Sudipta Chattopadhyay 0001, Sumei Sun, Ernest Kurniawan
本文提出了一种名为 BrakTooth 的定向模糊测试工具,专门用于发现蓝牙协议栈中 Link Manager 层的安全漏洞。蓝牙 Link Manager 负责建立、管理和释放蓝牙连接,其实现通常嵌入在固件中,难以通过传统方法进行大规模测试。BrakTooth 基于状态感知的模糊测试技术,通过逆向分析蓝牙规范,构建了 Link Manager 协议的状态机模型,并针对不同状态下的协议数据单元(PDU)生成测试用例。该工具能够自动发现导致设备崩溃、拒绝服务或潜在远程代码执行的漏洞。作者使用 BrakTooth 对多款主流蓝牙芯片(如 Intel、Qualcomm、Broadcom 等)进行了测试,共发现了 16 个未知漏洞,将其分类为逻辑错误、内存损坏和协议违规等类型。实验表明,BrakTooth 在漏洞发现效率上显著优于通用模糊测试工具。该研究不仅揭示了蓝牙 Link Manager 实现中的普遍安全问题,还提出了一种可扩展的面向协议实现的漏洞挖掘方法,对蓝牙安全研究具有重要意义。
💡 推荐理由: 蓝牙设备广泛使用,Link Manager 层漏洞可导致拒绝服务甚至远程代码执行,BrakTooth 系统化地发现大量新漏洞,对蓝牙安全防御和固件更新有直接推动作用。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jinsheng Ba, Marcel Böhme, Zahra Mirzamomen, Abhik Roychoudhury
该论文针对协议实现中的状态化漏洞(stateful bugs)提出了自动化的灰盒模糊测试方法。许多协议实现是反应式系统,其行为依赖当前状态,只有到达特定状态后输入特定事件序列才能触发漏洞。现有模糊测试方法缺乏对协议状态的明确认知,难以有效覆盖状态空间。通过分析Top-50最广泛使用的开源协议实现,作者发现所有实现都使用枚举类型(enum)的状态变量,并通过命名常量(如INIT、READY)表示当前状态。基于此观察,论文提出自动识别这些状态变量,并在模糊测试过程中跟踪其赋值序列,生成被探索状态空间的“地图”。该方法无需人工标注状态规范,即可引导模糊测试生成能触发状态转移的输入序列。实验结果显示,与基线灰盒模糊器相比,该状态化模糊器发现状态化漏洞的速度快两倍,从初始状态开始执行的态/转移序列数量高一个数量级,代码覆盖率提升两倍。在多个知名协议实现中发现了零日漏洞,并已分配8个CVE编号。该工作适合协议安全研究者、模糊测试工具开发者及软件测试工程师阅读。
💡 推荐理由: 提出无需状态规范自动识别协议状态变量的方法,显著提升状态化漏洞发现效率,解决协议模糊测试核心瓶颈。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Gen Zhang, Pengfei Wang 0010, Tai Yue, Xiangdong Kong, Shan Huang 0002, Xu Zhou 0004, Kai Lu 0001
灰盒模糊测试(CGF)是一种高效的软件测试技术,但现有方法难以同时优化多个目标。本文提出MobFuzz,一种基于多目标优化(MOO)的自适应灰盒模糊器。首先,将多目标优化过程建模为多人多臂老虎机(MPMAB)问题,自适应选择当前最合适的客观组合。其次,该模型处理能量调度,在选定客观组合下自适应分配能量给种子。此外,提出进化算法NIC,在无额外性能开销下同时优化多个目标。在12个真实程序及MAGMA数据集上的实验表明,MobFuzz优于单目标模糊器:能选择最优客观组合,使多个目标值提升高达107%,能耗最多降低55%;程序覆盖率提升最高6%,发现独特漏洞数量是基线模糊器的3倍;NIC算法性能提升至少2倍,开销仅约3%。
💡 推荐理由: MobFuzz提出的自适应多目标优化机制显著提升了模糊测试的覆盖率和漏洞发现能力,为复杂软件的安全测试提供了更高效的方法。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Haya Schulmann, Niklas Vogel
资源公钥基础设施(RPKI)已成为保护域间路由安全的关键技术。然而,RPKI软件的安全性测试长期停留在浅层解析阶段,现有模糊测试工具(如AFL++、libFuzzer)因假设每次执行输入单一且独立,无法处理RPKI仓库中数百个相互依赖、经密码学链接的对象。这种复杂性导致现有工具无法精确追踪多对象仓库中的代码覆盖率,破坏了基于反馈的探索机制,从而遗漏了RPKI验证中的多数严重漏洞。本文提出并实现了一种新型模糊测试工具CAT,通过连续采样和将函数作为侧信道实现大规模输入仓库中每个对象的精确覆盖率归因。同时,通过将解析输入转换为带标签的树结构,CAT能够在保持变异仓库密码学有效性的前提下进行结构和语义突变。CAT结合了非顺序模糊测试与模板无关的ASN.1变异引擎,相比顺序模糊测试吞吐量提升66倍,相比libFuzzer和先前工作多探索24%-47%的独特代码路径。在RPKI验证器上的评估中,CAT发现了21个先前未知的漏洞,其中8个已分配CVE(CVSS 7.5-9.8),包括缓冲区溢出、拒绝服务(DoS)和可被利用的仓库投毒逻辑缺陷。CAT已开源,以支持可重复性、进一步研究以及将方法推广至DNSSEC、TLS等其他基于密码学的复杂协议。
💡 推荐理由: RPKI是保护互联网路由安全的关键基础设施,其验证软件中的漏洞可能导致路由劫持、服务中断等严重后果。CAT工具显著提升了RPKI软件的安全性检测能力,发现的多个高危漏洞(CVSS最高9.8)直接威胁到全球路由安全。
🎯 建议动作: 建议RPKI实现者评估并集成CAT进行持续测试,关注已分配CVE并尽快修复;安全研究者可借鉴其方法应用于其他协议。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)
👥 作者: Kunpeng Zhang, Zongjie Li, Daoyuan Wu, Shuai Wang 0011, Xin Xia 0001
本文提出了一种名为 G2FUZZ 的新方法,旨在实现对非文本输入(如图像、视频、PDF 文件)的语法感知模糊测试。传统上,大型语言模型(LLM)擅长生成符合语法的文本和代码,但生成非文本输出却成本高昂且能力有限。G2FUZZ 利用 LLM 合成和变异输入生成器(以 Python 脚本形式),这些生成器能生成符合给定输入格式语法的非文本数据,然后由传统模糊器(如 AFL++)进一步变异这些数据以有效探索程序输入空间。该方法采用混合策略,结合 LLM 驱动的全局搜索和工业级模糊器的局部搜索。LLM 在合成和变异输入生成器方面表现出色,有助于跳出局部最优,从而实现与变异模糊器的协同效应;同时,LLM 仅在必要时被调用,显著降低了使用成本。作者在 TIFF 图像、MP4 音频和 PDF 文件等多种输入格式上评估了 G2FUZZ,在 UNIFUZZ、FuzzBench 和 MAGMA 三个平台上,与 AFL++、Fuzztruction 和 FormatFuzzer 等最先进工具相比,G2FUZZ 在代码覆盖率和漏洞发现方面均表现更优。该研究为将 LLM 应用于非文本输入的模糊测试提供了低成本、高效率的解决方案。
💡 推荐理由: 首次将 LLM 用于非文本输入的语法感知模糊测试,提出混合搜索策略,显著提升代码覆盖率和漏洞发现能力,且成本可控。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Alexander Bulekov, Bandan Das, Stefan Hajnoczi, Manuel Egele
操作系统内核的安全性对整个计算生态至关重要,但由于代码规模庞大,每年都会发现数百个安全漏洞。模糊测试已成为自动发现软件安全问题的关键技术,并被用于内核漏洞挖掘,例如 Syzkaller 已发现数千个内核缺陷。然而,Syzkaller 等现代内核模糊器依赖于精确且详尽的人工编写的 harness 和语法描述(grammar)来定义每个系统调用接口,这带来了可扩展性问题。本文提出了 FUZZNG,一种无需系统调用描述即可对操作系统内核进行模糊测试的通用方法。与 Syzkaller 不同,FUZZNG 不需要复杂的接口描述,而是利用内核基本设计特性(如系统调用号、文件路径等)来重塑和简化模糊器的输入空间。FUZZNG 仅需少量配置:一个目标文件列表和一组系统调用号。作者在 Linux 内核上实现了 FUZZNG,并在 10 个已有 Syzkaller 详细描述的 Linux 组件上进行了测试。结果表明,FUZZNG 达到了 Syzkaller 覆盖率的 102.5%(平均),并发现了 9 个新漏洞(其中 5 个位于 Syzkaller 已长期模糊测试的组件中)。此外,FUZZNG 的配置文件大小仅为 Syzkaller 手工编写语法的 1.7%,且无需初始种子输入或专家指导。该工作显著降低了内核模糊测试的配置成本和人力依赖,为大规模自动化内核安全测试提供了新思路。
💡 推荐理由: FUZZNG 消除了传统内核模糊器对复杂语法描述的依赖,极大降低了测试准备成本,有望加速内核漏洞的发现,对提升操作系统整体安全性具有重要价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhuo Zhang 0002, Wei You 0001, Guanhong Tao 0001, Yousra Aafer, Xuwei Liu, Xiangyu Zhang 0001
本文提出 StochFuzz,一种针对 stripped binaries 的模糊测试技术。Stripped binaries 由于缺少符号信息,传统 instrumentation 方法困难。现有方案如 QEMU 依赖硬件或昂贵的动态二进制翻译引擎,或做出不实际假设(如二进制中不含内联数据)。StochFuzz 利用模糊测试的高重复性特点,采用增量随机重写方法。在模糊测试过程中,它生成多个重写版本,通过大量测试运行验证其有效性,并使用概率分析聚合证据,逐步收敛到正确重写。实验在两组真实程序上进行,与 e9patch、ddisasm、RetroWrite 等基线相比,StochFuzz 在正确性和成本效益方面表现更优,性能与基于源码的模糊器相当。工具已开源。
💡 推荐理由: 为 stripped binaries 的模糊测试提供了一种无需硬件加速或昂贵引擎的轻量级方案,降低了二进制安全测试的门槛。
🎯 建议动作: 研究跟进,评估在内部模糊测试流程中的适用性
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhiyi Yao
本论文提出 FuzzPilot,一种针对 AFL++ 模糊测试工具的控制器,旨在将昂贵的推理过程移出变异热路径。当覆盖率出现平台期时,FuzzPilot 会快照当前语料库,生成候选变异配方(以 JSON 数据形式表示),在独立的 AFL++ 微活动中评估这些配方,并仅推广具有正验证奖励的配方。配方由原生自定义变异器消费,包含操作符权重、字节范围、语料库选择规则和字典令牌等。候选配方可来自本地规则或语言模型代理,后者可利用 Ghidra 提取的常量和反编译上下文作为目标提示。论文在 cJSON 上进行了故意狭窄的评估,每轮运行 5 次 14400 秒,比较了标准 AFL++ 和全功能 FuzzPilot。实验发现 cJSON 覆盖已饱和:基线 AFL++ 在约 2500 秒中位数时达到暴露的 269 条边上限。因此,实验无法证明语言模型提议能提高覆盖率或泛化到 cJSON 之外。在本次范围内,FuzzPilot 保持了吞吐量(中位 execs_per_sec 约为基线的 1.06 倍),并显示出描述性的更短中位平台期(1384 秒对比 2532 秒),但在 N=5 时差异不显著(Mann-Whitney p=0.42)。验证门评估了 20 个模型提出的配方,均未提升(奖励为零)。观察到的平台期减少更可能来自控制器的快照和重启机制,而非模型或配方变异器。本版本最好作为可审计的实现报告和正在进行的非饱和目标评估的基线。适合对模糊测试优化和 LLM 辅助测试感兴趣的研究人员阅读。
💡 推荐理由: FuzzPilot 尝试将 LLM 引入模糊测试配方生成,提供了一种结构化的平台期处理思路。尽管实验未证明显著改进,但其方法和实现细节值得关注,可作为安全测试自动化研究的参考。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Ze Sheng, Dmitrijs Trizna, Luigino Camastra, Zhicheng Chen, Qingxiao Xu, Jeff Huang
本文针对C/C++软件中模糊测试(fuzz testing)的关键瓶颈——fuzz harness(连接模糊器和库API的程序)的正确性问题,提出了一种自动化生成高质量harness的系统QuartetFuzz。现有的自动化harness生成工具无法系统性地确保harness的正确性,导致逻辑错误、API误用和生命周期违规等问题在源代码层面被忽视。随着基于大语言模型(LLM)的生成技术使harness创建规模化,缺乏质量控制反而使规模成为负担。QuartetFuzz的核心是四个原则框架:逻辑正确性(P1)、API协议合规(P2)、安全边界尊重(P3)和入口点充分性(P4),这是首个在源代码层面定义harness正确性的框架,包含数学规范与可实现的检查。该系统将这四个原则操作化为一个自主LLM智能体,通过“生成-检查-修复”循环,在模糊测试开始前确保生成的harness满足P1-P4。在涵盖C/C++、Java和JavaScript的23个开源项目上部署后,系统提交了42个漏洞报告,其中29个已被上游修复或确认(包括3个CVE),仅有2个被拒绝(误报率4.8%)。在生成过程中,内置的P1/P2检查自动拦截了58个由harness引起的崩溃,否则这些崩溃将成为误报。当作为质量审核工具应用于70个项目的586个现有生产环境harness时,系统识别出53个违规(45个已确认,35个已修复)。此外,作者发布了包含100个标注harness的数据集以供可复现评估。该工作对于提升模糊测试的有效性、减少误报、以及自动化安全测试基础设施有重要意义。
💡 推荐理由: 该研究首次从源代码层面定义并实现了fuzz harness的正确性框架,解决了LLM生成harness时质量失控的问题,显著降低了模糊测试中的误报率,并已产出实际漏洞修复(含3个CVE),对安全测试工程师和自动化工具开发者具有直接参考价值。
🎯 建议动作: 研究跟进
排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ze Sheng, Zhicheng Chen, Qingxiao Xu, Kewen Zhu, Jeff Huang
软件漏洞是严重的安全威胁,仅2025年报告的CVE数量就接近5万个。大型语言模型在自动化漏洞检测方面展现出潜力,但仍面临三大挑战:一是生成的漏洞报告误报率高且缺乏可重复验证;二是现有的LLM方法在漏洞定位时粒度选择次优,函数级分析在上下文过多时容易遗漏漏洞,而行级分析则缺乏足够的上下文;三是难以推理具有复杂跨函数依赖和触发条件的漏洞。针对这些问题,本文提出了FuzzingBrain V2,一个基于多智能体LLM的系统,其核心贡献包括:(1) 基于Google的OSS-Fuzz实现完全自动化的漏洞分析,确保所有报告的漏洞都可通过模糊测试复现;(2) 提出Suspicious Point这一基于控制流的新型抽象,实现最优粒度的精确漏洞定位;(3) 采用逻辑驱动的层次化函数分析与双层模糊测试,在资源约束下增强函数覆盖;(4) 基于MCP的静态和动态分析工具结合上下文工程,增强复杂漏洞的推理能力。在AIxCC 2025决赛的C/C++数据集上,FuzzingBrain V2实现了90%的检测率(40个漏洞中检测到36个)。在实际部署中,该工具在12个开源项目中发现了29个零日漏洞,所有漏洞均被维护者确认并修复,其中2个已分配CVE编号。
💡 推荐理由: 该研究提出了一种可复现、低误报的自动化漏洞发现系统,结合多智能体LLM与模糊测试,显著提升了真实世界漏洞检测效率,对蓝队和安全工程师评估LLM在漏洞挖掘中的实用性具有直接参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yujian Zhang, Yaokun Liu, Jinyu Xu, Yanhao Wang
本文提出了一种名为前驱感知定向灰盒模糊测试(PDGF)的新方法,旨在解决现有定向灰盒模糊测试(DGF)技术中存在的重量级和不完整性问题。DGF是一种面向目标的模糊测试技术,用于复现或发现软件漏洞,通常分为静态分析(预先获取程序结构信息)和动态执行(引导模糊测试向目标位置靠近)两个阶段。然而,现有方法在识别和接近目标时需额外开销,且由于间接调用或路径覆盖不足,导致对目标位置的测试不完整。PDGF将DGF重新定义为路径搜索问题,通过将程序划分为前驱区域和非前驱区域,并利用轻量级程序分析初始维护前驱集合,在动态执行中不断扩充该集合。PDGF引入了一种新的适应度指标——区域成熟度,用以表示前驱区域的覆盖率,并结合基于模拟退火的能量调度技术以及种子选择和变异策略,高效且全面地覆盖前驱区域。在包含30个真实程序目标点的基准测试上,PDGF与现有最先进的DGF工具进行了广泛比较,实验结果表明,PDGF在暴露时间、路径多样性和漏洞发现方面均优于竞争对手。此外,PDGF发现了9个新漏洞,其中6个已分配CVE编号。该工作对软件安全测试领域具有重要参考价值,适合安全测试研究员、模糊测试工具开发者和软件质量保障人员阅读。
💡 推荐理由: 针对现有定向灰盒模糊测试的效率与覆盖瓶颈,提出了轻量级的前驱感知机制,显著提升了路径多样性和漏洞发现能力,为实际软件安全测试提供了更有效的工具。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiameng Shi, Wenqiang Li, Wenwen Wang 0001, Le Guan
本文针对深度嵌入式设备(如基于微控制器的设备)固件测试面临的挑战,提出了一种非侵入式、解耦的固件测试框架IPEA。由于此类设备运行时环境与通用计算机差异巨大,且资源严重受限,传统的动态测试技术难以直接应用。IPEA利用微控制器开发过程中工作站与目标设备相连的独特条件,将资源密集型分析任务(如污点跟踪、地址清理)从微控制器转移到强大的工作站上执行,仅在被测固件中保留轻量级的“针式探针”来收集内部执行状态,不进行本地处理。框架实现了两个实例:基于指针能力的清理器IPEA-San和灰盒模糊器IPEA-Fuzz。实验表明,在真实固件上IPEA-San相比移植的AddressSanitizer内存开销降低62.75%,且检测精度更高。结合IPEA-Fuzz,在流行的IoT库(3个)和外设驱动代码(4个)中发现了7个零日漏洞。该工作为嵌入式固件的安全测试提供了一种低开销、高可移植性的新范式。
💡 推荐理由: 深度嵌入式设备固件安全测试长期受限于资源约束,IPEA框架通过将分析外移到工作站,显著降低了内存开销并保持了高检测能力,为大规模固件安全评估开辟了新途径。发现的7个零日漏洞也凸显了其实际价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Sicong Cao, Biao He 0002, Xiaobing Sun 0001, Yu Ouyang, Chao Zhang 0008, Xiaoxue Wu 0001, Ting Su 0001, Lili Bo, Bin Li 0006, Chuanlei Ma, Jiajia Li, Tao Wei 0002
本文提出了一种名为 ODDFuzz 的新型混合解决方案,用于高效发现 Java 反序列化漏洞。Java 反序列化漏洞是实际中严重的威胁,现有静态分析和模糊测试方法在有效性和效率上存在局限。ODDFuzz 首先执行轻量级静态污点分析,识别可能引发反序列化漏洞的候选 gadget 链,此步骤旨在定位所有候选者并避免漏报。随后,ODDFuzz 采用定向灰盒模糊测试(DGF)探索这些候选链,生成概念验证(PoC)测试用例以消除误报。具体而言,ODDFuzz 应用了结构感知的种子生成方法保证测试用例的有效性,并采用新颖的混合反馈和逐步向前策略指导定向模糊测试。在流行 Java 反序列化仓库 ysoserial 上的评估表明,ODDFuzz 发现了 34 条已知 gadget 链中的 16 条,而两个最先进的基线仅识别出 3 条。此外,在真实应用如 Oracle WebLogic Server、Apache Dubbo、Sonatype Nexus 和 protostuff 上,ODDFuzz 发现了 6 条先前未报告的可利用 gadget 链,并获得了 5 个 CVE 编号。
💡 推荐理由: ODDFuzz 为 Java 反序列化漏洞发现提供了高效的方法,在实际应用中已发现新漏洞并获得 CVE,对安全防御者理解攻击面和改进检测有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zu-Ming Jiang, Jia-Ju Bai, Zhendong Su 0001
该论文提出了一种名为DynSQL的有状态模糊测试方法,专门针对数据库管理系统(DBMS)进行测试。传统的DBMS模糊测试通常只生成简单的SQL查询,难以发现与复杂状态相关的深层漏洞。DynSQL的核心创新在于能够自动生成复杂且语义有效的SQL查询,同时保持对数据库状态(如表结构、索引、数据分布)的感知和追踪。它通过构建一个状态机模型来模拟数据库的演化过程,并利用该模型指导SQL生成,确保生成的查询在语法和语义上都有效,且能够覆盖更多数据库状态转换路径。实验在多个主流DBMS(如SQLite、MySQL、PostgreSQL等)上进行了评估,结果表明DynSQL比现有工具发现了更多独特漏洞,且生成的查询复杂度更高,代码覆盖率也显著提升。该工作为DBMS的安全性测试提供了一种新的有效手段,尤其适合发现与多语句交互、事务隔离、约束违反等相关的复杂缺陷。
💡 推荐理由: DBMS漏洞可能导致数据泄露或破坏,现有模糊测试方法难以生成复杂有效SQL。DynSQL通过有状态生成显著提升发现深层漏洞的能力,对数据库安全测试有重要实践价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiaxing Cheng, Ming Zhou 0010, Haining Wang 0001, Xin Chen 0123, Yuncheng Wang, Yibo Qu, Limin Sun 0001
本文提出了一种基于大语言模型的模糊测试框架,旨在发现可编程逻辑控制器中的逻辑指令错误。该框架利用LLM生成有针对性的测试用例,通过分析PLC指令语义来触发深层逻辑缺陷。实验在多种PLC平台上验证了框架的有效性,成功检测到多个未知漏洞,展示了LLM在工控系统安全测试中的潜力。
💡 推荐理由: PLC是工业控制系统的核心,其逻辑指令错误可能导致严重物理后果。LLM驱动的方法有望提高自动化漏洞发现效率,对工控安全防御具有重要价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Justin Applegate, Andreas Kellas
Python 的原生序列化协议 pickle 虽然功能强大,但由于存在已知的安全风险,在处理不可信数据时非常不安全。它常被用于保存机器学习模型等场景,但攻击者可能通过构造恶意的 pickle 数据来执行任意代码。开发者有时会通过限制反序列化时的导入或使用静态/动态分析工具来缓解风险,但这些方法容易出错,且高度依赖对 Pickle 虚拟机(PVM)操作码的准确解释。Python 的三个原生 PVM 模块(pickle、cPickle、_pickle)之间存在实现差异,这些差异会导致错误检测恶意负载,从而削弱现有防御。为了高效且可扩展地识别这些差异,本文提出了 PickleFuzzer,一种基于生成的定制化模糊测试工具。PickleFuzzer 通过语法生成 pickle 对象,将其传递给每个实现,并检测抛出的异常或关键内部状态的变化。它通过比较每个测试实现的执行行为来确定差异,而不需要依赖于规范派生的 oracle。PickleFuzzer 发现了 14 个新的差异,其中 4 个是关键的,可用于绕过 Hugging Face 等流行模型托管平台上部署的安全扫描工具。作者向 Python 软件基金会披露了所有发现,并将安全问题报告给漏洞赏金平台,获得了 750 美元奖励。该工作证明了差分测试是识别重要 pickle 实现中安全相关差异的有效方法,并为通过更定向的模糊测试发现更深层的 pickle 漏洞提供了有前景的未来方向。
💡 推荐理由: PickleFuzzer 揭示了不同实现间的差异可被利用来绕过安全检查,直接影响 Hugging Face 等平台上的模型安全。安全从业者应关注此类间接漏洞检测方法。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yunlong Lyu, Peng Chen, Fengyi Wu, Junzhe Yu, Kit Long Hon, Hao Chen
库模糊测试是保障软件供应链安全的重要手段,但大规模采用仍面临成本高昂、环境配置复杂、测试用例生成难以满足复杂API约束,以及难以区分真实库bug与测试驱动导致的崩溃等问题。现有的基于LLM的自动化工具通常作为一次性代码生成器运行,忽略了运行时反馈,限制了代码覆盖深度和报告bug的有效性。本文提出FuzzAgent,一个基于多智能体系统的进化式库模糊测试框架。其核心洞察是:有效的库模糊测试本质上是迭代的——每次测试暴露新的覆盖瓶颈和崩溃,下一次测试应基于这些信号进化,而非从头开始。FuzzAgent由一组专门智能体组成,覆盖模糊测试全生命周期,包括:环境设置、harness生成、运行监控、覆盖分析、崩溃分类等。每个决策都基于具体的运行时证据,通过多轮迭代逐步优化harness套件,以实现更深覆盖和更精确的崩溃分析。在20个真实世界的C/C++库上,FuzzAgent无需人工干预即可完成完整模糊测试流程,达到179,619个分支,分别超越OSS-Fuzz、PromptFuzz、PromeFuzz和OSS-Fuzz-Gen 45.1%、73.2%、92.1%和191.2%。此外,FuzzAgent发现了102个真实库bug,其中78个已被上游维护者确认并修复。该工作展示了多智能体协作与进化学习在自动化库模糊测试中的巨大潜力。
💡 推荐理由: FuzzAgent创新性地将多智能体系统与进化学习结合,显著提升了库模糊测试的自动化程度和有效性,对软件供应链安全防御具有重要意义。
🎯 建议动作: 研究跟进
排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yunze Zhao, Yibo Zhao, Yuchen Zhang, Zaoxing Liu, Michelle L. Mazurek
该论文提出了GRIEF,一种面向LLM推理引擎的灰盒模糊测试工具,旨在发现服务层漏洞。当前LLM推理引擎(如vLLM、SGLang)引入了KV缓存、批处理、前缀共享、推测解码、适配器和多租户调度等机制,这些共享状态行为仅在真实并发工作负载下才显现,而标准的模型测试、安全测试和API测试无法覆盖。GRIEF将定时多请求轨迹作为一等输入,使用轻量级预言(oracle)检测崩溃、挂起、性能异常和静默输出损坏,并通过带log-probability检查的可控重放来确认可重现的服务层故障。在vLLM和SGLang上的早期测试中,GRIEF发现了15个漏洞,其中10个被开发者确认,包括2个CVE,涵盖KV缓存隔离失败、跨请求性能干扰、崩溃或活锁问题。结果表明,并发、缓存和状态重用可导致静默跨请求污染、邻区噪声拒绝服务以及延迟崩溃,且无需畸形输入或显式服务器错误。因此,并发的服务行为应作为LLM基础设施的一级安全与可靠性边界。
💡 推荐理由: LLM服务系统已成为关键基础设施,但其服务层漏洞(如跨请求污染、拒绝服务)难以通过常规测试发现。GRIEF首次系统性地针对服务层并发特性进行模糊测试,揭示了一类被忽视的安全风险,对保障LLM生产环境稳定性和数据隔离有直接指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Daniel Klischies, Dyon Goos, David Hirsch, Alyssa Milburn, Marius Muench, Veelasha Moonsamy
现代蜂窝基带的测试主要依赖于两种方式:空中(Over-the-Air, OTA)测试和仿真测试。OTA测试虽然真实,但成本高、难以自动化且可重现性差;而仿真测试虽然可扩展性好,但由于基带中涉及DSP、SIM卡、射频前端等复杂外设的模拟支持有限,导致仿真状态与真实设备差距较大,只能发现浅层漏洞。为了弥补这一差距,本文提出了BaseBridge方法,它通过从真实设备的内存转储中恢复相关的运行时状态,从而使仿真环境能够更全面地模拟基带行为。具体而言,BaseBridge提取真实设备在处理特定信令消息时的内存快照,并将这些状态加载到仿真器中,使得仿真器能够正确响应复杂的无线资源控制(RRC)和网络接入层(NAS)消息。原型实现支持两大供应商(MediaTek和Samsung)的基带固件。实验结果显示,与当前最先进的仿真器相比,BaseBridge对测试的RRC和NAS消息的正确响应率达到了97%,同时覆盖率平均提升了2.41倍(Samsung)和5.54倍(MediaTek)。此外,BaseBridge还通过了多项LTE一致性测试。在模糊测试中,整体覆盖率提升了2.3-5倍,针对该方法目标的功能覆盖率提升了9.0-22.5倍。利用BaseBridge进行漏洞挖掘,发现了5个新的安全漏洞,并已向受影响厂商披露。该研究表明,通过结合真实设备状态,仿真测试能够兼顾真实性和可扩展性,从而更高效地发现基带中的深层次漏洞。
💡 推荐理由: 基带漏洞影响蜂窝通信安全,传统仿真测试难以发现深层次缺陷。BaseBridge提出的状态恢复方法大幅提升了仿真保真度,使模糊测试能覆盖更多关键路径,为基带安全测试提供了新的高效方案。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiwon Kim 0001, Dave Jing Tian, Benjamin E. Ujcich
本文提出Chimera,一个针对P4可编程网络基础设施的模糊测试工具,旨在检测跨控制平面和数据平面的多平面漏洞。传统P4安全研究主要关注数据平面,忽略了与控制平面的交互。作者通过分析开源P4实现中的历史漏洞报告,发现许多漏洞源于两个平面之间的相互影响。Chimera采用混合执行(concolic execution)来捕获控制-数据平面的交互,并提出了两种新的输入变异策略:解析器感知数据包变异(PAPM)和头部引导规则生成(HGRG),以利用跨平面和P4程序的依赖关系。在ONOS、Stratum和BMv2三个平台上的评估中,Chimera发现了7个新bug,包括3个安全关键漏洞,其中2个由多平面输入触发,2个为跨平面漏洞。与现有单平面模糊测试器相比,Chimera实现了更高的覆盖率和3.5倍的漏洞检测率。该研究适合网络协议安全研究人员、P4开发者和模糊测试工具开发者阅读。
💡 推荐理由: P4可编程网络扩大了攻击面,而现有工具忽视控制面与数据面的交互。Chimera首次系统性地检测多平面漏洞,能发现传统单平面工具遗漏的安全关键缺陷。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Patrick Jauernig, Domagoj Jakobovic, Stjepan Picek, Emmanuel Stapf, Ahmad-Reza Sadeghi
模糊测试是一种广泛应用于工业界的自动化软件测试技术,其中基于变异的模糊测试在实践中发现了大量错误。尽管学术界多年来一直在研究基于变异的模糊测试,但模糊器中算法的交互非常复杂,加上每个模糊器实例中的随机性,可能导致不可预测的效果。大多数改进这种脆弱交互的努力都集中在优化种子调度上,然而像Google的FuzzBench这样的实际结果表明,这些方法在实践中并未持续带来改进。另一种算法上改进模糊测试过程的方法是优化变异调度。不幸的是,现有的变异调度方法也未能令人信服,因为它们缺乏实际改进,或者需要过多用户可控参数,这些参数的配置需要目标程序的专家知识。这留下了如何巧妙地处理测试用例并实现可测量改进这一具有挑战性的问题。本文提出了DARWIN,一种新颖的变异调度器,它是首个在现实场景中展示模糊测试改进且无需引入额外用户可配置参数的方法,从而将这种方法开放给了广泛的模糊测试社区。DARWIN使用进化策略系统地优化和调整模糊测试过程中变异操作符的概率分布。作者基于流行的通用模糊测试器AFL实现了原型。DARWIN在自主覆盖实验、FuzzBench以及MAGMA基准测试中均显著优于最先进的变异调度器和AFL基线,在MAGMA中以最快速度找到了21个bug中的15个。最后,DARWIN在广泛使用的真实世界应用程序中发现了20个独特的bug(包括一个新bug),比AFL多出66%。
💡 推荐理由: DARWIN首次在无需额外用户参数的情况下,在真实场景中显著提升了变异模糊测试的效率,为模糊测试领域提供了一种即插即用的改进方案,具有广泛的实用价值。
🎯 建议动作: 研究跟进,考虑将DARWIN集成到现有模糊测试管道中。
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zihui Guo, Miaomiao Yuan, Yanqi Yang, Liwei Chen, Gang Shi, Dan Meng 0002
本文针对当前CPU模糊测试中测试用例多样性不足的问题展开研究。作者分析现有主流CPU Fuzzer(如DifuzzRTL、Cascade等)后发现,其写入回数据(write-back data)存在高度重复且操作码分布不均,导致对CPU架构状态的探索不充分。为此,提出DiveFuzz框架,通过运行时精细控制指令的操作数,并结合上下文语义关联,生成具有多样化写入回数据和语义关联的指令流。此外,DiveFuzz引入一种新颖的变异器,可监控模糊测试过程以动态调整操作码分布,并准确消除误报。实验在五个常用覆盖率指标上评估,DiveFuzz相比DifuzzRTL和Cascade分别实现204倍和114倍的覆盖率加速。在XiangShan、CVA6、Rocket和NutShell四款知名开源RISC-V CPU上测试,共发现26个新bug,其中15个已分配CVE编号。本文方法显著提升了CPU模糊测试的指令多样性,对硬件安全测试领域具有重要参考价值。
💡 推荐理由: 首次从操作码分布和写入回数据多样性两个维度系统优化CPU模糊测试,显著提升覆盖率并发现大量真实漏洞,对RISC-V生态安全建设有直接推动作用。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jianqiang Wang, Meng Wang, Qinying Wang, Nils Langius, Li Shi, Ali Abbasi 0002, Thorsten Holz
本文首次对引导加载程序(bootloader)进行了全面、系统的内存安全分析。引导加载程序在启动过程中连接固件与操作系统,是安全启动链的关键环节,负责验证操作系统并加载其镜像。随着代码库增长,引导加载程序暴露了更多攻击面,近年来发现了大量内存安全漏洞,部分可导致拒绝服务甚至绕过安全启动保护。然而,此前缺乏针对引导加载程序的系统性内存安全研究。本文基于对以往漏洞的调研,分析了多种引导加载程序的潜在攻击面,发现来自存储设备、网络等外设的恶意输入是主要攻击方式。为帮助开发者规模化检测漏洞,作者设计并实现了一个引导加载程序模糊测试框架。实验在9个引导加载程序中发现了39个漏洞(38个为新漏洞),其中14个存在于广泛使用的Linux标准引导加载程序GRUB中,部分漏洞在恰当利用下可绕过安全启动;截至论文发表时已有5个漏洞分配了CVE编号。29个漏洞已被开发者确认或修复。作者将框架原型开源。该研究适合引导加载程序开发者、安全研究人员、系统安全工程师阅读。
💡 推荐理由: 引导加载程序是安全启动链的核心组件,其内存安全漏洞可直接导致安全启动绕过,威胁整个系统的完整性。本文首次系统性分析此类风险,发现的38个新漏洞(含GRUB中14个)具有现实威胁。
🎯 建议动作: 研究跟进:相关引导加载程序维护者应参考论文中的漏洞列表和模糊测试框架,修补已知漏洞并集成Fuzzing到开发流程。
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Samuel Groß, Simon Koch 0001, Lukas Bernhard, Thorsten Holz, Martin Johns
该论文提出了FUZZILLI,第一个专门针对JavaScript JIT编译器漏洞的模糊测试工具。现代JavaScript引擎依赖JIT编译器实现高性能,但JIT编译器的复杂性带来了安全漏洞风险。现有的模糊测试工具主要生成常规JavaScript代码,难以触发JIT编译器特有的语义,因此无法有效发现JIT相关漏洞。FUZZILLI通过设计一种中间表示(IR),能够生成专门触发JIT编译器优化、编译、运行时等阶段的测试用例,从而发现JIT编译器中的安全缺陷。作者实现了完整原型,并在六个月评估期内发现了17个已确认的安全漏洞,证明了靶向JIT模糊测试的可行性和现有模糊测试覆盖中的一个被危险忽略的空白。该研究为JavaScript引擎安全提供了新的测试方法论,对安全研究人员和浏览器厂商具有重要参考价值。
💡 推荐理由: JIT编译器漏洞是当前浏览器安全的重要攻击面,但现有模糊测试工具对此覆盖不足。FUZZILLI首次提出针对性方案,填补了关键空白。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuan Chang, Chun-Chia Huang, Tatsuya Mori, Hsu-Chun Hsiao
该论文在ArXiv上以海报形式发表,提出了一种名为YFuzz的数据驱动模糊测试方法。研究指出,传统的代码覆盖率引导的灰盒模糊测试存在关键局限性:即使覆盖了相关代码,也可能遗漏bug,因为触发bug通常需要满足特定条件,而代码覆盖率仅关注代码是否被执行,无法全面捕捉这些条件。YFuzz旨在通过数据分析来指导模糊测试,以生成更可能触发bug的输入。由于本研究仅提供摘要,未公开具体方法细节和实验评估,因此属于初步研究展示。适合对模糊测试改进感兴趣的研究人员阅读。
💡 推荐理由: 指出了覆盖率引导模糊测试的固有局限,并提出了数据驱动的新思路,对提升模糊测试效率有潜在价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.3)
👥 作者: Jiaying Meng, Xuewei Feng, Qi Li, Min Liu, Ke Xu
工业控制协议(ICP)对于工业基础设施的可靠性和稳定性至关重要,但其安全性受到规范盲点(specification-blindness)瓶颈的根本性影响。现代模糊测试工具受限于基于观测的推理,难以深入协议状态或检测微妙的语义偏差。本文提出了AFL-ICP,一种自主模糊测试框架,开创了规范驱动的范式。AFL-ICP包含一个上下文感知的规范形式化流水线,可将复杂规范转换为严格的机器可执行语法。在此基础上,AFL-ICP利用大语言模型(LLM)实现自动化的协议适配和种子生成,从而以最少的人工工作快速扩展到新协议。此外,它还包含一个基于LLM的差分检查器,将实现输出与规范要求进行交叉引用,以检测现有模糊测试工具无法发现的细微语义和逻辑错误。作者实现了AFL-ICP,并在四种广泛使用的ICP(包括开源和闭源变体)上进行了评估。结果表明,AFL-ICP在覆盖率方面显著优于最先进的模糊测试工具,并发现了24个先前未知的漏洞,已获得受影响供应商(如FreyrSCADA)的确认。其中,识别出的漏洞包括16个语义和逻辑错误,这些错误可能悄无声息地破坏工业操作并降低服务可用性。本文适合工业控制系统安全研究人员、模糊测试工具开发者以及工控协议设计者阅读。
💡 推荐理由: 该研究提出了一种利用LLM增强模糊测试的新范式,能系统性地发现工控协议中隐蔽的语义和逻辑漏洞,对提升工业安全至关重要。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Meng Wang, Philipp Görz, Joschua Schilling, Keno Hassler, Liwei Guo, Thorsten Holz, Ali Abbasi 0002
业务逻辑漏洞是软件安全中一个关键且难以检测的问题,它们源于应用程序设计或实现中的错误,使攻击者能够触发非预期的行为。传统的基于模糊测试的动态分析工具在检测内存安全漏洞方面表现出色,但往往无法发现业务逻辑漏洞,因为这些缺陷需要理解特定于应用程序的语义上下文。已有的推测上下文的方法由于依赖启发式和非可移植的语言特性,本质上是脆弱且不完整的。由于业务逻辑漏洞在CWE Top 40中占据27个,是实际中最危险的软件弱点之一,现有工具的盲点令人担忧。本文提出了ANOTA,一种新型的人机协同的sanitizer框架。ANOTA引入了一个轻量级、用户友好的注解系统,使用户能够直接将其领域知识编码为轻量级注解,这些注解定义了应用程序的预期行为。运行时执行监视器观察程序行为,将其与注解定义的策略进行比较,从而识别指示漏洞的偏差。为了评估ANOTA的有效性,作者将其与最先进的模糊测试器结合,与其他针对相同目标的流行漏洞发现方法进行比较。结果表明,ANOTA+FUZZER在有效性上优于其他方法。具体来说,ANOTA+FUZZER成功复现了43个已知漏洞,并在评估期间发现了22个以前未知的漏洞(分配了17个CVE)。这些结果证明,ANOTA为发现传统安全测试技术经常遗漏的复杂业务逻辑缺陷提供了一种实用且有效的方法。
💡 推荐理由: 业务逻辑漏洞是实际中最常见但最难以自动化检测的安全弱点之一,ANOTA提出了一种实用的注解式sanitizer方案,填补了现有工具的盲区。
🎯 建议动作: 研究跟进,评估集成到现有测试管线的可行性
排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)
👥 作者: Johannes Lenzen, Mohamadreza Rostami, Lichao Wu, Ahmad-Reza Sadeghi
现代CPU作为黑盒,其微架构漏洞日益复杂,传统分析手段难以应对。虽然已有通过繁琐手工挖掘出的关键漏洞,但缺乏自动化、系统化的后硅漏洞检测框架。本文提出Fuzzilicon,首个面向真实x86 CPU的后硅模糊测试框架,通过引入微码级内省填补了可见性鸿沟。Fuzzilicon的核心是新型微架构反馈提取技术:通过逆向工程Intel的专有微码更新接口,实现对处理器微架构的深度内省,并开发了最小侵入性的插桩方法,集成于基于Hypervisor的模糊测试工具链中,实现了无需寄存器传输级(RTL)访问的精确反馈引导输入生成。在Intel Goldmont微架构上的实验表明,Fuzzilicon发现了5项重要发现,包括两个此前未知的微码级推测执行漏洞,并自动重现了之前手动检测到的μSpectre类漏洞。与基线技术相比,Fuzzilicon将覆盖率收集开销降低最多31倍,并达到了16.27%的可挂钩位置唯一微码覆盖率,成为此类首个实证基线。该框架是一种实用、覆盖引导且可扩展的后硅模糊测试方法,为自动化发现复杂CPU漏洞奠定了新基础。
💡 推荐理由: Fuzzilicon首次实现了面向真实x86 CPU的自动化后硅模糊测试,通过微码级反馈彻底改变了CPU漏洞挖掘范式,对硬件安全研究和防御具有里程碑意义。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Zhicong Zheng, Jinghui Wu, Shilin Xiao, Yanze Ren, Chen Yan 0001, Xiaoyu Ji 0001, Wenyuan Xu 0001
本文提出了一种名为 PhyFuzz 的新型传感器漏洞检测方法,利用物理信号模糊测试来发现传感器中的安全缺陷。传感器在现代系统中广泛应用,但物理层面的攻击往往被忽视。PhyFuzz 通过生成物理信号(如声波、电磁波等)并注入到传感器中,观察系统的异常行为,从而检测出传感器对物理干扰的脆弱性。该方法系统性地探索了传感器物理输入空间,结合自适应变异策略以提高漏洞发现效率。实验在多种实际传感器设备上进行,结果表明 PhyFuzz 能够有效发现传统软件模糊测试无法触及的物理层漏洞,例如传感器饱和、信号干扰导致的错误输出等。该研究为物联网和嵌入式系统安全提供了新的测试视角,有助于开发更鲁棒的传感器系统。主要贡献包括:1)提出了物理信号模糊测试的通用框架;2)设计了针对传感器特性的变异生成算法;3)通过案例验证了方法的有效性。
💡 推荐理由: 传感器是物联网和智能系统的核心,其物理层漏洞可被远程利用导致严重后果。PhyFuzz 提供了一种自动化检测手段,帮助安全团队在部署前发现并修复这些隐蔽的脆弱性。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ting Yang, Yue Qin, Lan Zhang 0008, Zhiyuan Fu, Junfan Chen, Jice Wang, Shangru Zhao, Qi Li 0002, Ruidong Li, He Wang, Yuqing Zhang 0001
该论文提出了BSFuzzer,一种针对蓝牙低功耗(BLE)协议逻辑缺陷的上下文感知语义模糊测试方法。研究背景在于BLE设备广泛使用,但其逻辑漏洞(如身份验证绕过、状态机异常)难以被传统模糊测试发现。核心方法包括:1)提取BLE协议规范中的上下文约束(如连接状态、加密密钥状态)构建语义模型;2)基于该模型生成符合协议流程但包含逻辑异常的数据包序列;3)采用自适应变异策略,优先触发边界状态转换。实验在主流BLE协议栈(如BlueZ、Zephyr)上进行,测试了10种常见逻辑缺陷类型,结果显示BSFuzzer在代码覆盖率上比现有工具提高35%,并成功发现6个未知逻辑漏洞。主要贡献在于将上下文感知与语义模糊结合,提高了BLE逻辑缺陷的检测效率。适合安全研究员、蓝牙协议开发者阅读。
💡 推荐理由: BLE设备数量激增,逻辑缺陷可导致未授权访问或数据泄露,现有模糊测试对逻辑漏洞覆盖率低。BSFuzzer提供了一种新的检测思路,可提升IoT生态安全性。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuncheng Wang, Yaowen Zheng, Puzhuo Liu, Dongliang Fang, Jiaxing Cheng, Dingyi Shi, Limin Sun 0001
该论文提出了一种名为ADGFUZZ的模糊测试方法,专门针对机器人车辆(如无人车、无人机)的软件安全测试。机器人车辆通常依赖复杂的任务依赖关系(如传感器、执行器、控制逻辑之间的时序与数据耦合),传统模糊测试难以有效覆盖这些依赖路径。ADGFUZZ通过静态分析提取程序中的赋值依赖关系(assignment dependency),构建依赖图,并利用该图指导输入变异,优先触发涉及多组件交互的深层漏洞。实验在多个真实机器人车辆固件(如ArduPilot、PX4)上进行,结果表明ADGFUZZ相比现有工具(如AFL、Fuzzing架构)能显著提高代码覆盖率和漏洞发现效率,并挖掘出多个未知安全缺陷。该方法的核心贡献在于将依赖关系建模引入CPS模糊测试,将测试导向关键交互路径,降低了盲目变异的开销。
💡 推荐理由: 机器人车辆(如自动驾驶汽车、无人机)的软件漏洞可能导致严重物理事故。ADGFUZZ首次利用任务依赖指导模糊测试,提升了此类CPS系统的安全检测能力,值得安全测试工具开发者与CPS厂商关注。
🎯 建议动作: 研究跟进,评估方法是否可引入自研模糊测试框架
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Peihong Lin, Pengfei Wang, Lei Zhou, Gen Zhang, Xu Zhou, Wei Xie, Zhiyuan Jiang, Kai Lu 0001
该论文提出了一种名为PortRush的硬件模糊测试框架,旨在检测由写端口竞争引发的微架构侧信道漏洞。写端口竞争是现代超标量处理器中多个执行单元同时尝试写入同一物理端口时产生的资源冲突现象,这种竞争可能导致时序差异,进而被攻击者利用来窃取敏感信息。PortRush通过自动化生成针对写端口竞争的高效测试用例,利用硬件性能计数器实时监控微架构事件,从而触发并识别潜在的信息泄露路径。该框架结合了静态分析和动态模糊测试技术,能够系统地探索处理器微架构中的竞争条件,并自动确认漏洞的可利用性。实验在多种主流处理器(如Intel Core和AMD Ryzen系列)上进行,成功发现了多个之前未知的写端口竞争侧信道漏洞,证明了该方法的有效性。PortRush的贡献在于提出了一种新的自动化检测手段,填补了针对写端口竞争这一特定侧信道攻击类型在安全测试工具方面的空白,为处理器安全评估提供了重要支持。
💡 推荐理由: 写端口竞争是微架构侧信道攻击的新兴向量,传统侧信道检测工具难以覆盖,PortRush提供了一种自动化、系统化的检测方法,对保障CPU安全和数据机密性具有前瞻意义。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Eunkyu Lee, Junyoung Park, Insu Yun
本文提出了一种针对实时操作系统(RTOS)内核的上下文自适应函数级模糊测试方法,名为RTCON。RTOS广泛应用于嵌入式系统和物联网设备,其内核安全性至关重要。传统模糊测试通常以系统调用或整个程序为输入,但RTOS内核具有高度耦合的上下文依赖关系,例如中断处理、任务调度和资源锁定,这使得通用模糊测试难以有效探索内核状态空间。RTCON创新性地在函数级别进行模糊测试,并利用上下文信息(如当前运行任务、中断状态、锁持有情况等)动态调整测试输入和路径选择。具体地,该方法通过静态分析提取函数间的上下文依赖图,并在执行过程中实时监控上下文变化,从而生成更导向的测试用例,提高对临界区、中断服务例程和竞争条件等深层漏洞的覆盖能力。实验在多个主流RTOS内核(如FreeRTOS、Zephyr)上进行,结果表明RTCON在代码覆盖率、漏洞发现数量和测试效率方面显著优于现有通用模糊测试工具,成功发现了多个未知的内存破坏和死锁漏洞。本文的主要贡献包括:定义了RTOS内核模糊测试的上下文自适应问题,提出了函数级测试生成算法,设计并实现了原型工具RTCON,并通过实证验证了其有效性。
💡 推荐理由: RTOS内核漏洞可能导致嵌入式设备被完全控制,影响关键基础设施。RTCON提供了一种针对RTOS特性的高效模糊测试方法,能发现传统工具遗漏的上下文相关漏洞,提升安全审计能力。
🎯 建议动作: 研究跟进,评估其在自身RTOS安全测试流程中的适用性
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiangan Ji, Chao Zhang 0008, Shuitao Gan, Lin Jian, Hangtian Liu, Tieming Liu, Lei Zheng, Zhipeng Jia
本文提出 FirmAgent,一种融合模糊测试与大型语言模型(LLM)智能体的方法,用于自动化发现物联网(IoT)固件中的安全漏洞。研究背景是:IoT 设备数量激增,其固件普遍存在内存破坏、逻辑缺陷等漏洞,而传统模糊测试在固件平台上面临代码覆盖率低、种子生成盲目等挑战。FirmAgent 核心思路是让 LLM 智能体理解固件结构(如二进制文件解析、文件系统识别)后,动态指导模糊测试的种子生成与变异策略。具体而言,智能体先通过静态分析提取固件关键函数、协议处理逻辑等信息,再结合运行时覆盖率反馈,生成更可能触发深层路径的测试用例。实验在多个真实 IoT 固件(如路由器、摄像头)上进行,与 AFL、LibFuzzer 等基线工具对比,FirmAgent 在漏洞发现数量、代码覆盖率及触发崩溃效率上均有显著提升,成功挖掘出多个未公开的零日漏洞。主要贡献包括:1)首次系统性将 LLM 智能体与模糊测试结合用于固件安全;2)提出智能体引导的种子生成机制;3)构建专用数据集并公开评估结果。本文适合固件安全研究人员、AI 辅助漏洞挖掘开发者阅读。
💡 推荐理由: 传统模糊测试在IoT固件上效率低,FirmAgent借助LLM的语义理解能力智能化指导测试,开辟了新型漏洞发现范式,能显著提升固件安全评估效率。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Manuel Andreas, Fabian Specht, Marius Momeu
本文提出了一种名为 HyperMirage 的新型混合虚拟 CPU 模糊测试方法,旨在解决传统模糊测试在虚拟化环境中状态覆盖不足的问题。该方法通过直接操纵虚拟CPU的内部状态(如寄存器、内存映射和特权级),结合符号执行和覆盖率引导的变异策略,显著提升了对虚拟化执行路径的探索效率。实验在QEMU、KVM和Bhyve等主流虚拟化平台上进行,结果显示HyperMirage相比现有工具(如Hypercube和TriforceAFL)在代码覆盖率和漏洞发现数量上均有大幅提升,共发现20个先前未知的虚拟化实现漏洞,其中12个被认定为安全关键。论文详细描述了状态快照与恢复机制、混合执行引擎的设计以及针对虚拟CPU特定指令集的模糊策略。该研究属于学术界对虚拟化安全测试方法的创新,适合虚拟化平台开发者、安全研究员和漏洞挖掘专家阅读。
💡 推荐理由: 虚拟化是现代云基础设施的核心,其安全漏洞影响面极广。HyperMirage提出直接状态操纵方法,突破了传统模糊测试在虚拟CPU测试中的瓶颈,为发现虚拟化层深层漏洞提供了有效手段。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Nuno Sabino, Darion Cassel, Rui Abreu 0001, Pedro Adão, Lujo Bauer, Limin Jia 0001
该论文提出了一种针对DOM-XSS(文档对象模型跨站脚本)漏洞的自动化检测方法。核心思路是将网页交互模糊测试与URL组件合成相结合。具体而言,方法首先通过模糊测试生成各种用户交互事件(如点击、输入、滚动等),触发网页中的JavaScript逻辑;同时,系统会动态合成包含恶意payload的URL组件(如哈希、查询参数等),并注入到页面中,以观察是否触发执行。实验在真实世界的网站集上验证了该方法的有效性,发现多个未知的DOM-XSS漏洞,并与现有工具进行了对比。该方法不需要访问页面源代码,仅通过黑盒测试即可检测,适合大规模自动化扫描。主要贡献包括:1)设计了一种兼顾交互覆盖和URL变异的模糊测试策略;2)提出了一种基于执行上下文追踪的漏洞判定机制;3)在真实环境下展示了较高的检出率和较低的误报率。
💡 推荐理由: DOM-XSS是Web安全中最难防御的漏洞之一,因其完全在客户端执行且绕过服务器过滤。该研究提供了一种自动化的黑盒检测方案,可帮助安全团队在无源码场景下快速发现此类漏洞。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Jingcheng Yang, Enze Wang, Jianjun Chen 0005, Qi Wang 0094, Yuheng Zhang, Haixin Duan, Wei Xie 0007, Baosheng Wang
该论文对 JSON Web Token(JWT)实现的安全性进行了系统评估。JWT 被广泛应用于分布式系统中的身份认证和授权,但已知存在多种安全漏洞。作者首先收集了来自 GitHub、Maven、npm 和 Go 生态系统的 43 个 JWT 实现库,包括 22 个 Java 库、11 个 Node.js 库和 10 个 Go 库。接着,他们设计并实现了自动化模糊测试工具 JWT-Fuzzer,该工具能够生成包含 12 种已知 JWT 攻击类型的测试用例,例如签名旁路(将算法改为 'none')、密钥混淆(如从 RSA 切换到 HS256 并滥用公钥作为 HMAC 密钥)、弱密钥破解(使用已知弱密钥或暴力破解短密钥)、令牌伪造(利用算法混淆或密钥泄露)等。JWT-Fuzzer 对每个库执行黑盒测试,分析其是否容易受到这些攻击。实验结果显示,43 个库中的 35 个(约 81%)存在至少一种安全漏洞。最普遍的漏洞是密钥混淆(28 个库受影响)和弱密钥(12 个库)。此外,作者还发现一些库在签名验证中存在逻辑错误或实现偏差。论文还讨论了漏洞的成因,包括不规范的标准实现、文档不清晰以及开发者对安全性的忽视。最后,作者向相关维护者报告了漏洞,并提出了改进建议。该研究旨在提高 JWT 生态系统的整体安全性。
💡 推荐理由: JWT 是现代微服务和单点登录系统的核心组件,但广泛存在的实现漏洞可导致未授权访问和身份假冒。该研究量化了问题严重性,并提供自动化检测工具。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Kaihua Wang, Jianjun Chen 0005, Pinji Chen, Jianwei Zhuge, Jiaju Bai, Haixin Duan
本文对QUIC协议实现中的逻辑漏洞进行了系统性研究。QUIC作为一种基于UDP的传输层协议,旨在提升HTTP/3的性能与安全性,但不同实现(如Chromium、Quinn、msquic等)可能因状态机处理不当、参数校验缺失或并发控制缺陷而引入逻辑漏洞。作者首先构建了针对QUIC实现的黑盒与白盒测试框架,通过模糊测试和手工分析相结合的方式,对主流实现进行了深度审计。研究发现多类逻辑漏洞,包括连接迁移机制中的权限绕过、0-RTT数据重放攻击、流控制窗口计算错误以及握手状态跳跃导致的内存破坏。实验表明,这些漏洞可导致拒绝服务、信息泄露或中间人攻击。论文进一步提出了基于状态机建模的静态分析工具,用于自动检测此类缺陷,并在真实实现中发现了多个未见报的漏洞。该工作为QUIC实现的安全性评估提供了系统方法论,对协议标准化和实现优化具有重要参考价值。
💡 推荐理由: QUIC是HTTP/3的基础,其实现漏洞直接影响现代Web通信的安全;本文首次系统揭示该领域逻辑漏洞类型,有助于防御者提前识别风险。
🎯 建议动作: 研究跟进:建议QUIC实现方及安全团队参考论文中的测试框架进行内部审计,并关注后续PoC发布。
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zezhong Ren, Han Zheng 0006, Zhiyao Feng, Qinying Wang, Marcel Busch, Yuqing Zhang 0001, Chao Zhang, Mathias Payer
该论文提出了一种名为 SYSYPHUZZ 的模糊测试技术,旨在解决传统覆盖率导向模糊测试中因过度追求覆盖率而导致效率下降的问题。作者通过分析现有覆盖率指标对模糊测试性能的影响,设计了一种新型的“压力”机制,在保持高覆盖率的同时避免无效的探索路径。方法可能结合了反馈驱动的变异策略和自适应调度算法。实验在多个真实数据集上验证,结果表明 SYSYPHUZZ 在发现漏洞和代码覆盖方面优于现有工具。适合安全研究人员和模糊测试工程师阅读。
💡 推荐理由: 模糊测试是漏洞挖掘的关键手段,该研究针对覆盖率-效率平衡难题提出了新思路,可能提升自动化漏洞发现能力。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yu Liang, Peng Liu
该论文提出了一种自底向上基于语法的 SQL 生成方法,用于高效检测数据库管理系统(DBMS)中的漏洞。与传统自顶向下的生成方式不同,该方法从基本语法单元(如关键字、运算符)开始,逐步构建复杂 SQL 语句,从而覆盖更多边界情况和异常路径。通过将 SQL 语法规则编码为状态机,并采用随机搜索与约束求解相结合的策略,生成的 SQL 语句能够触发 DBMS 解析器、优化器和执行引擎中的深层错误。实验在多个主流 DBMS(如 MySQL、PostgreSQL 等)上进行,结果表明该方法在漏洞发现效率和代码覆盖率方面均优于现有模糊测试工具(如 SQLancer、SQLsmith)。论文还分析了检测到的漏洞类型,包括崩溃、断言失败和逻辑错误,并证明了方法在自动化测试中的实用性。对于安全团队而言,该方法可集成到 CI/CD 管道中,持续发现 DBMS 0day 漏洞。
💡 推荐理由: DBMS 0day 漏洞可能导致数据泄露或拒绝服务,本文提出更高效的自动化检测方法,能够降低人工审计成本,提升防守方对数据库安全的掌控力。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shuangxiang Kan, Xiao Cheng, Yuekang Li
该论文提出了 MUTATO,一种通过自适应 API 选项变异来增强模糊测试驱动(fuzz driver)的方法。在库模糊测试中,模糊驱动程序通常需要构造 API 调用序列及其参数,但现有工具往往忽略了 API 选项(如配置参数或标志位)的变异,导致测试覆盖率受限。MUTATO 设计了一种轻量级的自适应策略,能够基于动态反馈(如代码覆盖率增长情况)自动调整选项变异的概率和范围,从而更有效地探索库的深层路径。方法包括三个关键组件:选项类型推断(从函数签名中识别选项参数)、变异概率调度(使用带宽分配模型)以及交叉影响处理(考虑多个选项间的组合)。在多个真实库(如 libxml2、libpng、OpenSSL)上的实验表明,MUTATO 相比基线工具(如 AFL++ 的默认驱动)实现了平均 23% 的代码覆盖率提升和 31% 的崩溃发现数量增加。该工作为自动化模糊测试驱动生成后的优化提供了新思路,尤其适用于具有大量配置选项的库。
💡 推荐理由: 库模糊测试是发现底层漏洞的关键手段,但选项参数的变异长期被忽视。MUTATO 自动化提升了测试效率,可直接增强现有模糊测试工具链,降低安全人员的手动调优成本。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yongheng Chen, Rui Zhong, Hong Hu 0004, Hangfan Zhang, Yupeng Yang, Dinghao Wu, Wenke Lee
本文提出了一种通用的语言处理器模糊测试框架,旨在解决现有模糊测试工具针对特定语言处理器(如JSON解析器、XML解析器等)定制化程度高、通用性差的问题。该框架的核心创新在于引入了语义验证机制,能够自动识别并过滤掉语义无效的测试用例,从而大幅提升模糊测试的效率和覆盖率。方法上,作者设计了一个统一的接口来适配多种语言处理器的输入规范,并利用轻量级的语义模型对生成的测试用例进行实时验证。实验在多个流行的语言处理器(包括libxml2、json-c、yaml-cpp等)上进行,结果表明该框架在代码覆盖率、漏洞发现数量上均显著优于现有的专用模糊测试工具。主要贡献包括:1)提出了一种通用且高效的语言处理器模糊测试方法;2)开发了可扩展的语义验证模块;3)通过大量实验证明了方法的有效性。适合安全研究人员和模糊测试工具开发者阅读。
💡 推荐理由: 语言处理器(如解析器)是安全攻击面的高发区域,现有模糊测试工具缺乏通用性。本文提出的通用框架能显著降低测试成本并提升漏洞发现能力,对蓝队和开发人员评估自身软件安全性具有直接参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mario Rodríguez Béjar, B. Romera-Paredes, Jose L. Hernández-Ramos
本文提出 FunFuzz,一个基于大型语言模型(LLM)的进化模糊测试框架,旨在解决传统 LLM 驱动模糊测试中 prompt 初始化和采样方差导致的探索效率低下和输入冗余问题。FunFuzz 采用多岛进化算法,并行运行多个隔离的搜索过程,并定期迁移高价值候选输入以维持种群多样性。初始生成 prompt 从文档中提取,每个岛屿使用特定主题的指令初始化,随后通过反馈引导的 prompt 选择机制持续调整 prompt。在模糊测试过程中,候选输入根据增量编译器覆盖率进行排序,同时利用编译器内部失败信号识别崩溃触发输入。在 GCC 和 Clang 编译器上的 24 小时连续实验表明,FunFuzz 相比之前的 LLM 驱动基线方法实现了更高的编译器覆盖率,并发现了更多独特的编译器内部失败触发输入。该方法有效结合了 LLM 的输入生成能力和进化算法的全局搜索能力,为编译器等结构化输入场景的模糊测试提供了新思路。
💡 推荐理由: FunFuzz 将 LLM 与进化算法有机结合,显著提升了编译器模糊测试的覆盖率和缺陷发现能力,对于软件安全测试领域具有创新意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yousra Aafer, Wei You 0001, Yi Sun 0004, Yu Shi, Xiangyu Zhang 0001, Heng Yin 0001
本文提出了一种针对Android SmartTV的日志引导模糊测试方法,旨在自动化发现这些设备中的安全漏洞。Android SmartTV设备由于其封闭性、资源受限以及定制化系统,传统的模糊测试方法难以有效覆盖其攻击面。作者设计了Log-Guided Fuzzing(LGF)框架,通过实时捕获设备运行时的系统日志和应用日志,解析日志中的状态信息(如Wifi状态、蓝牙事件、输入事件等),并利用这些信息动态调整模糊测试的输入生成策略,从而提高代码覆盖率并触发深层逻辑。具体而言,LGF将日志解析为结构化的事件序列,基于事件之间的依赖关系构建行为模型,然后指导Fuzzer生成符合设备实际运行状态的有效输入。实验在多个品牌的Android SmartTV上进行了评估,发现多个此前未知的漏洞,包括系统服务崩溃、权限绕过和远程代码执行等严重问题,证明了该方法在真实设备上的有效性。该研究为IoT和智能电视领域的漏洞挖掘提供了新思路。
💡 推荐理由: Android SmartTV用户广泛,但安全研究不足;该方法通过日志引导突破模糊测试瓶颈,可有效发现TV固件及预装应用中的高危漏洞,防止隐私泄露和远程控制。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)