#vulnerability-discovery 主题 - Cyber Security Daily Radar

👥 作者: Kelsey R. Fulton, Samantha Katcher, Kevin Song, Marshini Chetty, Michelle L. Mazurek, Chloé Messdaghi, Daniel Votipka

本文通过半结构化访谈（N=16）研究边缘化人群在漏洞发现领域的参与经历。当前，漏洞发现工作者的需求远超供给，且现有劳动力高度同质化，主要为白人和亚裔男性。因此，从更广泛的人群中招募和保留人才是增强该社区能力的有希望途径。此前研究已探讨计算领域普遍的公平与包容挑战，但漏洞发现工作的竞争性及自学特性可能催生新的变体。本文发现，边缘化群体面临一些独特挑战，同时漏洞发现中常见的其他挑战因其边缘化身份而被放大。研究结果揭示了社区文化、导师资源、入门门槛等方面的障碍，并为提升包容性提出了建议。该论文适合安全社区管理者、多样化倡导者以及关注人力资源发展的安全从业者阅读。

💡 推荐理由: 漏洞发现领域面临严重人才短缺，多元化是扩大人才池的关键。本文揭示了边缘化群体在进入该领域时面临的特有挑战，有助于社区设计更具包容性的招募与留存策略。

🎯 建议动作: 阅读并关注多样性倡议

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Tony Nasr, Sadegh Torabi, Elias Bou-Harb, Claude Fachkha, Chadi Assi

电动汽车充电管理系统（EVCMS）是一类允许用户远程操作充电站（EVCS）的专用软件。随着全球电动汽车保有量增长，EVCMS部署数量激增，带来了新的攻击面。本文提出了一种新颖的多阶段框架ChargePrint，用于互联网规模发现EVCMS并评估其安全状况。ChargePrint从少量EVCMS种子中提取标识符，通过迭代指纹识别结合分类与聚类方法，扩展了设备搜索引擎的能力。从1800个已部署9种不同EVCMS的主机种子出发，作者识别出27439个在线EVCS，涵盖44种独特的EVCMS。深入安全分析揭示了120个0day漏洞，展示了针对EVCS、其用户及连接电网的网络攻击的可行性。作者最终通过协调漏洞披露（CVD）与厂商合作，获得超过20个CVE编号，并提出了缓解建议。该研究首次对互联网规模EVCMS进行系统性安全评估，对充电基础设施安全具有重要参考价值。

💡 推荐理由: 电动汽车充电基础设施是智慧交通和电网的关键节点，本工作首次系统揭示其大规模0day漏洞，攻击者可远程控制充电站、窃取用户数据或破坏电网稳定性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Fangzhou Dong, Arvind S. Raj, Efrén López-Morales, Siyu Liu, Yan Shoshitaishvili, Tiffany Bao, Adam Doupé, Muslum Ozgur Ozmen, Ruoyu Wang 0001

本文提出了一种通过状态机恢复技术发现可编程逻辑控制器（PLC）二进制程序中盲目信任漏洞的方法。PLC广泛应用于工业控制系统，其固件中常存在对输入数据缺乏充分校验的逻辑缺陷，导致攻击者可以通过精心构造的输入触发异常行为。现有静态分析工具难以有效识别这类漏洞，因为它们需要理解PLC程序的状态演化逻辑。作者设计了一套针对PLC二进制指令集的中间表示（IR），并实现了状态机自动提取算法，能够从二进制代码中恢复出PLC控制逻辑的状态转换图。在此基础上，他们定义了“盲目信任”漏洞模式：即状态机中某些状态无条件信任输入数据而未进行合法性检查。该方法在9款主流PLC型号的固件中进行了测试，发现了22个先前未知的漏洞，其中12个被确认具有实际可利用性。实验结果表明，该技术能够有效发现传统方法遗漏的安全缺陷，且误报率较低。论文还讨论了这些漏洞可能导致的后果，如非预期输出、系统死锁或物理设备损坏。该研究为工控系统安全分析提供了新视角，有助于提升PLC固件的安全性。

💡 推荐理由: 工控系统安全威胁日益严峻，PLC作为关键组件，其隐藏漏洞可能导致严重物理后果。本文提出的自动化漏洞发现方法填补了针对PLC二进制状态逻辑分析的空缺，对蓝队评估自身工控资产风险具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Mohamamad Reza Faghani

该论文研究AI加速漏洞发现对互联系统安全的影响，提出一个结合排队论与网络理论的模型。模型将企业环境表示为加权依赖图，包含漏洞池动态补充、有限修复容量、分类降级、利用窗口压缩以及动态传播机制。通过数学推导给出了漏洞积压的稳定性条件，并建立了积压量与级联风险之间的动态耦合关系。仿真实验表明，当可操作的漏洞发现速率超过修复吞吐量时，积压会迅速增长，系统性风险非线性上升。在枢纽节点主导的拓扑中，网络分段比单纯提升修复速度更能有效减少传播性危害，而最佳防御策略是结合修复自动化与降低网络耦合。论文贡献在于理论化地分析了AI加速漏洞发现对修复管道的冲击，并提出了量化评估与防御策略的框架。适合安全研究员、风险管理工程师以及负责漏洞管理与网络架构的团队阅读。

💡 推荐理由: 揭示了AI加速漏洞发现可能压垮现有修复管道，导致积压与级联风险，为安全团队调整漏洞管理策略提供理论依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Tianneng Shi, Robin Rheem, Dongwei Jiang, Mona Wang, Francisco De La Riega, Zhun Wang, Jingzhi Jiang, Alexander Cheung, Sean Tai, Jonah Cha, Jianhong Tu, Gabriel Han, Chenguang Wang, Jingxuan He, Wenbo Guo, Dawn Song

该论文提出了 CyberGym-E2E，一个大规模、真实的端到端网络安全基准测试，旨在全面评估 AI 代理在软件漏洞发现、PoC 生成和补丁生成整个生命周期中的能力。现有 AI 安全评估在规模或范围上存在局限，未能捕捉真实世界漏洞发现和修复的完整过程。为此，作者构建了一条自动化、代理增强的流水线，将开源漏洞数据转化为逼真的评估环境。目前该基准包含来自 139 个不同开源项目的 920 个真实漏洞。论文还设计了多种评估指标和基线模型，实验表明当前 AI 代理在端到端任务上仍有显著提升空间。该工作为 AI 安全能力评测提供了标准化平台，有助于推动自主安全代理的发展。

💡 推荐理由: 填补了现有 AI 安全评估缺乏真实端到端场景的空白，为安全从业者提供了衡量 AI 代理在漏洞发现到修复全流程能力的标准化基准。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Matheus E. Garbelini, Vaibhav Bedi, Sudipta Chattopadhyay 0001, Sumei Sun, Ernest Kurniawan

本文提出了一种名为 BrakTooth 的定向模糊测试工具，专门用于发现蓝牙协议栈中 Link Manager 层的安全漏洞。蓝牙 Link Manager 负责建立、管理和释放蓝牙连接，其实现通常嵌入在固件中，难以通过传统方法进行大规模测试。BrakTooth 基于状态感知的模糊测试技术，通过逆向分析蓝牙规范，构建了 Link Manager 协议的状态机模型，并针对不同状态下的协议数据单元（PDU）生成测试用例。该工具能够自动发现导致设备崩溃、拒绝服务或潜在远程代码执行的漏洞。作者使用 BrakTooth 对多款主流蓝牙芯片（如 Intel、Qualcomm、Broadcom 等）进行了测试，共发现了 16 个未知漏洞，将其分类为逻辑错误、内存损坏和协议违规等类型。实验表明，BrakTooth 在漏洞发现效率上显著优于通用模糊测试工具。该研究不仅揭示了蓝牙 Link Manager 实现中的普遍安全问题，还提出了一种可扩展的面向协议实现的漏洞挖掘方法，对蓝牙安全研究具有重要意义。

💡 推荐理由: 蓝牙设备广泛使用，Link Manager 层漏洞可导致拒绝服务甚至远程代码执行，BrakTooth 系统化地发现大量新漏洞，对蓝牙安全防御和固件更新有直接推动作用。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sanjay Rawat

本文提出 NeuroLog，一个端到端、无需构建环境的漏洞发现流水线，用于 C/C++ 源代码。核心思路是将 LLM、Datalog（Soufflé）和 SMT 求解器（Z3）分层协作：LLM 逐个函数提取类型化的数据流事实；Soufflé 规则网将这些事实组合成跨函数的发现；Z3 后处理过滤不可行路径并为每个幸存路径输出 SAT 模型。为超越纯静态分析，还引入运行时证据：从少量语料种子导出的可能范围不变量以极低成本收紧 SMT 问题。第二个 LLM 智能体读取每个 SAT 模型并编写 Python 程序生成候选崩溃输入，由 AddressSanitizer 验证。实验覆盖 stb、cJSON、libxml2、FFmpeg demuxer 切片和 curl 8.3.0，重新发现了 8 个 CVE 类问题，包括 CVSS 9.8 的 SOCKS5 堆溢出 CVE-2023-38545。在 libarchive HEAD 上发现 5 个内存安全漏洞（4 个先前未报告），其中 cpio use-after-free 在 7 小时内得到确认。提取阶段约 37 秒、成本 $0.005（stb）；崩溃合成将静态发现转化为 102 字节的 stb_vorbis 崩溃（两轮 LLM 交互）。来自三个 Matroska 种子的似然不变性过滤器消除了 FFmpeg demuxer 可行集中的 13.2%。该方法结合了静态缩小 SMT（Saturn, Pinpoint）和 Datalog 与 SMT（Formulog）的先前工作，新贡献在于 LLM 推导的事实库、无构建流水线以及将 SAT 模型作为合成崩溃输入的制品而非简单的是/否判定。适合安全研究人员、漏洞发现工程师和软件质量保障团队阅读。

💡 推荐理由: 该方法首次将LLM、Datalog和SMT求解器无缝集成，无需构建环境即可发现真实CVE，显著降低了漏洞挖掘的门槛和成本。其可解释性（审计SAT模型）和实用性（直接生成验证过的崩溃输入）对蓝队和安全工程师极具价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hwiwon Lee, Jiawei Liu, Dongjun Kim, Ziqi Zhang, Chunqiu Steven Xia, Lingming Zhang

大型语言模型（LLM）已开始支持自动化软件安全任务，如漏洞发现和概念验证（PoC）生成。然而，现有基准测试依赖模糊测试框架、目标特定描述或漏洞复现任务，未能真实评估LLM在实际漏洞挖掘场景中的表现。为此，本文提出了SEC-bench Pro，一个用于衡量智能体在关键高复杂度软件系统中进行漏洞挖掘的基准测试。该基准通过三阶段流水线收集漏洞、重建环境并基于oracle进行验证，发布了含具体PoC输入的报告并将修复链接为可复现的任务。SEC-bench Pro包含183个经过验证的漏洞，覆盖V8和SpiderMonkey引擎，其中V8子集累计超过150万美元的Google漏洞奖励计划奖金。这些漏洞涵盖内存安全、沙箱、JIT和竞态条件等类型，运行在浏览器级和运行时级执行条件下。评估表明，使用前沿模型的编码智能体在两个引擎上的成功率均低于40%。开源权重模型Kimi-K2.6在V8上达到11.7%，而最强的前沿配置在V8和SpiderMonkey上分别达到32.0%和38.8%。ClaudeCode和Codex解决了互补的实例集，它们的双智能体联合在V8上达到37.9%，在SpiderMonkey上达到48.8%。SEC-bench Pro为评估基于LLM的安全智能体提供了稳健的环境，并揭示了长周期漏洞挖掘任务中的局限性。

💡 推荐理由: 该基准测试填补了现有LLM安全评估缺乏真实复杂场景的空白，揭示了当前模型在长周期、高复杂度漏洞挖掘任务中的显著不足，对安全自动化研究和AI Agent能力提升具有重要指导意义。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Alfredo Pesoli, Herman Errico, Lorenzo Cavallaro

本论文从“漏洞经济学”（bugonomics）的视角，系统分析了由大型语言模型（LLM）驱动漏洞发现所带来的成本与激励变化。传统上，高端漏洞经济以攻方定价为主，因为生产级零日漏洞和利用链是昂贵且专业化的输出，主要服务于政府、中间商和进攻性供应商。而防御方的漏洞经济早已存在于漏洞研究、奖励计划和厂商修复工作中；LLM辅助系统则改变了其规模和分布。LLM使得候选漏洞生成、代码理解、测试 harness 构建、影响证明起草和报告准备在代码库规模上更加廉价。利用和概念验证仍然重要，但在防御工作流中，它们主要用于证明影响、指导优先级排序和证明修复合理性。由此产生的瓶颈并非仅仅是发现更多漏洞，而是吸收、验证、分类、修补和发布更多报告的能力。论文基于Anthropic的Mythos Preview与Mozilla Firefox合作中的公开数据，结合公开的利用市场价格锚点和漏洞奖励计划，论证近期的转变并非简单地有更多零日漏洞，而是朝向更广泛的防御方修复吞吐量：低信号候选漏洞变得更便宜，证据丰富的修复变得更重要，稀缺能力转向维护者审查和发布工作。这一影响在开源软件中尤为显著，因为LLM辅助发现可能增加报告量，而维护方的验证、分类、资金和发布能力可能无法同步扩展。论文的主要贡献是揭示了LLM在漏洞发现中的经济影响，强调了防御方吞吐量瓶颈的重要性，并为安全社区提供了重新分配资源和关注点的视角。适合安全从业者、漏洞研究人员、开源维护者以及安全运营决策者阅读。

💡 推荐理由: 本文揭示了LLM辅助漏洞发现带来的真实瓶颈不是漏洞数量，而是防御方的修复吞吐量，帮助安全团队理解资源分配和流程优化的新方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ze Sheng, Zhicheng Chen, Qingxiao Xu, Kewen Zhu, Jeff Huang

软件漏洞是严重的安全威胁，仅2025年报告的CVE数量就接近5万个。大型语言模型在自动化漏洞检测方面展现出潜力，但仍面临三大挑战：一是生成的漏洞报告误报率高且缺乏可重复验证；二是现有的LLM方法在漏洞定位时粒度选择次优，函数级分析在上下文过多时容易遗漏漏洞，而行级分析则缺乏足够的上下文；三是难以推理具有复杂跨函数依赖和触发条件的漏洞。针对这些问题，本文提出了FuzzingBrain V2，一个基于多智能体LLM的系统，其核心贡献包括：(1) 基于Google的OSS-Fuzz实现完全自动化的漏洞分析，确保所有报告的漏洞都可通过模糊测试复现；(2) 提出Suspicious Point这一基于控制流的新型抽象，实现最优粒度的精确漏洞定位；(3) 采用逻辑驱动的层次化函数分析与双层模糊测试，在资源约束下增强函数覆盖；(4) 基于MCP的静态和动态分析工具结合上下文工程，增强复杂漏洞的推理能力。在AIxCC 2025决赛的C/C++数据集上，FuzzingBrain V2实现了90%的检测率（40个漏洞中检测到36个）。在实际部署中，该工具在12个开源项目中发现了29个零日漏洞，所有漏洞均被维护者确认并修复，其中2个已分配CVE编号。

💡 推荐理由: 该研究提出了一种可复现、低误报的自动化漏洞发现系统，结合多智能体LLM与模糊测试，显著提升了真实世界漏洞检测效率，对蓝队和安全工程师评估LLM在漏洞挖掘中的实用性具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yujian Zhang, Yaokun Liu, Jinyu Xu, Yanhao Wang

本文提出了一种名为前驱感知定向灰盒模糊测试（PDGF）的新方法，旨在解决现有定向灰盒模糊测试（DGF）技术中存在的重量级和不完整性问题。DGF是一种面向目标的模糊测试技术，用于复现或发现软件漏洞，通常分为静态分析（预先获取程序结构信息）和动态执行（引导模糊测试向目标位置靠近）两个阶段。然而，现有方法在识别和接近目标时需额外开销，且由于间接调用或路径覆盖不足，导致对目标位置的测试不完整。PDGF将DGF重新定义为路径搜索问题，通过将程序划分为前驱区域和非前驱区域，并利用轻量级程序分析初始维护前驱集合，在动态执行中不断扩充该集合。PDGF引入了一种新的适应度指标——区域成熟度，用以表示前驱区域的覆盖率，并结合基于模拟退火的能量调度技术以及种子选择和变异策略，高效且全面地覆盖前驱区域。在包含30个真实程序目标点的基准测试上，PDGF与现有最先进的DGF工具进行了广泛比较，实验结果表明，PDGF在暴露时间、路径多样性和漏洞发现方面均优于竞争对手。此外，PDGF发现了9个新漏洞，其中6个已分配CVE编号。该工作对软件安全测试领域具有重要参考价值，适合安全测试研究员、模糊测试工具开发者和软件质量保障人员阅读。

💡 推荐理由: 针对现有定向灰盒模糊测试的效率与覆盖瓶颈，提出了轻量级的前驱感知机制，显著提升了路径多样性和漏洞发现能力，为实际软件安全测试提供了更有效的工具。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yunze Zhao, Yibo Zhao, Yuchen Zhang, Zaoxing Liu, Michelle L. Mazurek

该论文提出了GRIEF，一种面向LLM推理引擎的灰盒模糊测试工具，旨在发现服务层漏洞。当前LLM推理引擎（如vLLM、SGLang）引入了KV缓存、批处理、前缀共享、推测解码、适配器和多租户调度等机制，这些共享状态行为仅在真实并发工作负载下才显现，而标准的模型测试、安全测试和API测试无法覆盖。GRIEF将定时多请求轨迹作为一等输入，使用轻量级预言（oracle）检测崩溃、挂起、性能异常和静默输出损坏，并通过带log-probability检查的可控重放来确认可重现的服务层故障。在vLLM和SGLang上的早期测试中，GRIEF发现了15个漏洞，其中10个被开发者确认，包括2个CVE，涵盖KV缓存隔离失败、跨请求性能干扰、崩溃或活锁问题。结果表明，并发、缓存和状态重用可导致静默跨请求污染、邻区噪声拒绝服务以及延迟崩溃，且无需畸形输入或显式服务器错误。因此，并发的服务行为应作为LLM基础设施的一级安全与可靠性边界。

💡 推荐理由: LLM服务系统已成为关键基础设施，但其服务层漏洞（如跨请求污染、拒绝服务）难以通过常规测试发现。GRIEF首次系统性地针对服务层并发特性进行模糊测试，揭示了一类被忽视的安全风险，对保障LLM生产环境稳定性和数据隔离有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hwiwon Lee, Jongseong Kim, Lingming Zhang

本文提出 SLYP，一种端到端智能体管道，用于在 Windows 组件对象模型（COM）二进制文件中发现竞争条件漏洞并生成经调试器验证的利用证明（PoC）。COM 服务以高权限运行且对认证用户广泛可用，其中的竞争条件是本地权限提升的关键攻击面。SLYP 将二进制探索、COM 检查和动态调试封装为可重用的工具接口，使智能体能够获取静态上下文、COM 激活元数据和调试器反馈，从而从漏洞发现过渡到可验证的 PoC 生成。在包含 20 个 COM 对象、40 个漏洞案例的基准测试中，SLYP 的 F1 值达到 0.973，比生产级编码智能体最高提升 0.208，比最先进的静态分析器在漏洞发现上提升 3.3 倍。在 PoC 生成方面，生产级编码智能体在默认配置（无 COM 检查和动态调试工具）下几乎无法验证任何案例，而 SLYP 的交互式工具集使其在最强配置下能够自主合成 67.5% 案例的有效 PoC。在真实生产 Windows 服务中部署后，SLYP 发现了 9 个 COM 服务中的 28 个先前未知漏洞，全部得到微软安全响应中心（MSRC）确认，并分配了 16 个 CVE 和 14 万美元奖金。此外，SLYP 的设计包含可泛化的二进制分析和调试接口，可轻松应用于其他商业现成（COTS）二进制文件。该研究展示了基于智能体的方法在复杂二进制漏洞挖掘中的巨大潜力，将大型语言模型与专用工具结合，实现了从发现到 PoC 验证的全自动化。

💡 推荐理由: SLYP 首次证明基于 LLM 的智能体能自主发现并验证 Windows COM 二进制中的真实竞争条件漏洞，获得 MSRC 确认和奖金，为二进制漏洞自动化挖掘开辟了新范式。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Johannes Lenzen, Mohamadreza Rostami, Lichao Wu, Ahmad-Reza Sadeghi

现代CPU作为黑盒，其微架构漏洞日益复杂，传统分析手段难以应对。虽然已有通过繁琐手工挖掘出的关键漏洞，但缺乏自动化、系统化的后硅漏洞检测框架。本文提出Fuzzilicon，首个面向真实x86 CPU的后硅模糊测试框架，通过引入微码级内省填补了可见性鸿沟。Fuzzilicon的核心是新型微架构反馈提取技术：通过逆向工程Intel的专有微码更新接口，实现对处理器微架构的深度内省，并开发了最小侵入性的插桩方法，集成于基于Hypervisor的模糊测试工具链中，实现了无需寄存器传输级（RTL）访问的精确反馈引导输入生成。在Intel Goldmont微架构上的实验表明，Fuzzilicon发现了5项重要发现，包括两个此前未知的微码级推测执行漏洞，并自动重现了之前手动检测到的μSpectre类漏洞。与基线技术相比，Fuzzilicon将覆盖率收集开销降低最多31倍，并达到了16.27%的可挂钩位置唯一微码覆盖率，成为此类首个实证基线。该框架是一种实用、覆盖引导且可扩展的后硅模糊测试方法，为自动化发现复杂CPU漏洞奠定了新基础。

💡 推荐理由: Fuzzilicon首次实现了面向真实x86 CPU的自动化后硅模糊测试，通过微码级反馈彻底改变了CPU漏洞挖掘范式，对硬件安全研究和防御具有里程碑意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Lichao Wu, Mohamadreza Rostami, Huimin Li 0004, Nikhilesh Singh, Ahmad-Reza Sadeghi

现代硬件系统由于追求高性能和特定应用功能而日益复杂，引入了大量漏洞和安全关键脆弱性的攻击面。模糊测试作为一种可扩展的缺陷发现方法已得到广泛应用，但现有硬件模糊器存在语义感知有限、测试用例优化效率低、以及依赖慢速设备仿真导致计算开销大等问题。本文提出了GoldenFuzz，一种新型的两阶段硬件模糊测试框架，将测试用例优化与覆盖率和漏洞探索部分解耦。GoldenFuzz利用一个快速且符合ISA的黄金参考模型作为被测设备的数字孪生，首先对GRM进行模糊测试，实现低成本的快速测试用例优化，从而加速对DUT的深度架构探索和漏洞发现。在模糊测试流水线中，GoldenFuzz通过拼接精心选择的指令块迭代构建测试用例，这些指令块平衡了指令间和指令内的细微质量。此外，一种基于高覆盖率和低覆盖率样本洞察的反馈驱动机制进一步增强了GoldenFuzz在硬件状态探索方面的能力。我们在三个RISC-V处理器（RocketChip、BOOM和CVA6）上的评估表明，GoldenFuzz在实现最高覆盖率的同时，测试用例长度和计算开销最小，显著优于现有模糊器。GoldenFuzz发现了所有已知漏洞，并发现了五个新漏洞，其中四个被归类为高严重性（CVSS v3分数超过7/10）。此外，它还在商业BA51-H核心扩展中发现了两个此前未知的漏洞。该论文适合硬件安全研究人员、处理器设计验证工程师以及关注RISC-V生态系统的安全从业者阅读。

💡 推荐理由: 硬件漏洞难以发现且影响深远，GoldenFuzz通过创新的两阶段模糊测试框架，显著提升了RISC-V处理器中漏洞的发现效率，有助于在芯片流片前消除安全隐患，对硬件供应链安全具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiangan Ji, Chao Zhang 0008, Shuitao Gan, Lin Jian, Hangtian Liu, Tieming Liu, Lei Zheng, Zhipeng Jia

本文提出 FirmAgent，一种融合模糊测试与大型语言模型（LLM）智能体的方法，用于自动化发现物联网（IoT）固件中的安全漏洞。研究背景是：IoT 设备数量激增，其固件普遍存在内存破坏、逻辑缺陷等漏洞，而传统模糊测试在固件平台上面临代码覆盖率低、种子生成盲目等挑战。FirmAgent 核心思路是让 LLM 智能体理解固件结构（如二进制文件解析、文件系统识别）后，动态指导模糊测试的种子生成与变异策略。具体而言，智能体先通过静态分析提取固件关键函数、协议处理逻辑等信息，再结合运行时覆盖率反馈，生成更可能触发深层路径的测试用例。实验在多个真实 IoT 固件（如路由器、摄像头）上进行，与 AFL、LibFuzzer 等基线工具对比，FirmAgent 在漏洞发现数量、代码覆盖率及触发崩溃效率上均有显著提升，成功挖掘出多个未公开的零日漏洞。主要贡献包括：1）首次系统性将 LLM 智能体与模糊测试结合用于固件安全；2）提出智能体引导的种子生成机制；3）构建专用数据集并公开评估结果。本文适合固件安全研究人员、AI 辅助漏洞挖掘开发者阅读。

💡 推荐理由: 传统模糊测试在IoT固件上效率低，FirmAgent借助LLM的语义理解能力智能化指导测试，开辟了新型漏洞发现范式，能显著提升固件安全评估效率。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Manuel Andreas, Fabian Specht, Marius Momeu

本文提出了一种名为 HyperMirage 的新型混合虚拟 CPU 模糊测试方法，旨在解决传统模糊测试在虚拟化环境中状态覆盖不足的问题。该方法通过直接操纵虚拟CPU的内部状态（如寄存器、内存映射和特权级），结合符号执行和覆盖率引导的变异策略，显著提升了对虚拟化执行路径的探索效率。实验在QEMU、KVM和Bhyve等主流虚拟化平台上进行，结果显示HyperMirage相比现有工具（如Hypercube和TriforceAFL）在代码覆盖率和漏洞发现数量上均有大幅提升，共发现20个先前未知的虚拟化实现漏洞，其中12个被认定为安全关键。论文详细描述了状态快照与恢复机制、混合执行引擎的设计以及针对虚拟CPU特定指令集的模糊策略。该研究属于学术界对虚拟化安全测试方法的创新，适合虚拟化平台开发者、安全研究员和漏洞挖掘专家阅读。

💡 推荐理由: 虚拟化是现代云基础设施的核心，其安全漏洞影响面极广。HyperMirage提出直接状态操纵方法，突破了传统模糊测试在虚拟CPU测试中的瓶颈，为发现虚拟化层深层漏洞提供了有效手段。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zezhong Ren, Han Zheng 0006, Zhiyao Feng, Qinying Wang, Marcel Busch, Yuqing Zhang 0001, Chao Zhang, Mathias Payer

该论文提出了一种名为 SYSYPHUZZ 的模糊测试技术，旨在解决传统覆盖率导向模糊测试中因过度追求覆盖率而导致效率下降的问题。作者通过分析现有覆盖率指标对模糊测试性能的影响，设计了一种新型的“压力”机制，在保持高覆盖率的同时避免无效的探索路径。方法可能结合了反馈驱动的变异策略和自适应调度算法。实验在多个真实数据集上验证，结果表明 SYSYPHUZZ 在发现漏洞和代码覆盖方面优于现有工具。适合安全研究人员和模糊测试工程师阅读。

💡 推荐理由: 模糊测试是漏洞挖掘的关键手段，该研究针对覆盖率-效率平衡难题提出了新思路，可能提升自动化漏洞发现能力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yi Chen 0024, Yepeng Yao, XiaoFeng Wang 0001, Dandan Xu, Chang Yue, Xiaozhong Liu 0001, Kai Chen 0012, Haixu Tang, Baoxu Liu

本文提出了一个名为Atomic的自动化框架，用于系统性地发现LTE蜂窝网络中的安全漏洞。研究背景是当前蜂窝网络漏洞发现主要依赖手动分析，效率低下且不全面。作者观察到LTE技术文档中包含大量“危险指示器”（HI），即描述在特定状态下发生某个事件时可能触发危险操作（如中止正在进行的过程）的语句。这些HI可以引导对系统的测试，以验证该操作是否确实能被未授权方触发并造成危害。Atomic框架利用自然语言处理和机器学习技术，从LTE NAS规范的549页、13,598条句子和283,850个单词中自动扫描提取HI。然后对HI进行解析和分析，恢复状态和事件信息，生成测试用例。这些测试用例在LTE仿真环境中自动执行，检测系统是否允许危险操作在缺乏适当保护的情况下发生。实验在不到5小时内从192个HI中发现了42个漏洞，其中10个是此前未报道过的，涉及两种威胁模型。所有漏洞均通过端到端攻击验证，可导致合法用户设备的LTE服务被未经授权中断。作者已向相关方报告，并获得主要商业运营商确认存在以及Google的2000美元奖励。

💡 推荐理由: 该研究展示了利用文档自动发现协议漏洞的新范式，可大幅提升蜂窝网络等复杂系统的安全分析效率。

🎯 建议动作: 纳入内部评估

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Yousra Aafer, Wei You 0001, Yi Sun 0004, Yu Shi, Xiangyu Zhang 0001, Heng Yin 0001

本文提出了一种针对Android SmartTV的日志引导模糊测试方法，旨在自动化发现这些设备中的安全漏洞。Android SmartTV设备由于其封闭性、资源受限以及定制化系统，传统的模糊测试方法难以有效覆盖其攻击面。作者设计了Log-Guided Fuzzing（LGF）框架，通过实时捕获设备运行时的系统日志和应用日志，解析日志中的状态信息（如Wifi状态、蓝牙事件、输入事件等），并利用这些信息动态调整模糊测试的输入生成策略，从而提高代码覆盖率并触发深层逻辑。具体而言，LGF将日志解析为结构化的事件序列，基于事件之间的依赖关系构建行为模型，然后指导Fuzzer生成符合设备实际运行状态的有效输入。实验在多个品牌的Android SmartTV上进行了评估，发现多个此前未知的漏洞，包括系统服务崩溃、权限绕过和远程代码执行等严重问题，证明了该方法在真实设备上的有效性。该研究为IoT和智能电视领域的漏洞挖掘提供了新思路。

💡 推荐理由: Android SmartTV用户广泛，但安全研究不足；该方法通过日志引导突破模糊测试瓶颈，可有效发现TV固件及预装应用中的高危漏洞，防止隐私泄露和远程控制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Quoc Huy Do 0001, Pedram Hosseyni, Ralf Küsters, Guido Schmitz, Nils Wenzler, Tim Würtele

本文是对W3C Web Payment API标准的首次形式化安全分析。Web Payment API旨在通过浏览器原生支持支付功能，统一在线结账流程，已被Chrome、Firefox、Edge等主流浏览器及Google Pay、Apple Pay、Stripe等支付处理器广泛采用，预计将服务全球数百万用户。研究者基于Web基础设施模型（WIM）——当前最全面的Web基础设施模型——扩展了通用浏览器模型以集成新的支付功能，从而对标准进行了严格的形式化分析。分析发现了两个关键漏洞：恶意商户可以利用这些漏洞向不知情的客户超额收费。研究者利用Chrome浏览器实现了攻击验证，并将问题报告给W3C和Chrome开发团队，双方均已确认问题。此外，研究者提出了标准修复方案，该方案已被W3C和Chrome采纳，并证明了修复后的Web Payment API满足强安全属性。研究贡献在于首次对此类标准进行形式化安全评估，揭示了实际风险并推动了行业安全改进。对于安全工程师、浏览器开发者、支付系统设计者以及参与标准制定的机构具有重要参考价值。

💡 推荐理由: Web Payment API被广泛使用，直接涉及资金交易，本研究表明即便经过行业巨头推动的标准也可能存在严重安全缺陷。发现并修复漏洞可保护数百万用户免受超额收费攻击。

🎯 建议动作: 关注W3C及浏览器厂商的安全更新，确保已实施修复后的标准；支付服务提供商应检查集成方式是否仍存在类似风险。

排序因子: 有可用补丁/修复方案 (+3) | 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#vulnerability-discovery

Vulnerability Discovery for All: Experiences of Marginalization in Vulnerability Discovery.

ChargePrint: A Framework for Internet-Scale Discovery and Security Analysis of EV Charging Management Systems.

Discovering Blind-Trust Vulnerabilities in PLC Binaries via State Machine Recovery.

When Discovery Outpaces Remediation: Modeling AI-Accelerated Vulnerability Discovery in Interconnected Systems

CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities

BrakTooth: Causing Havoc on Bluetooth Link Manager via Directed Fuzzing.

NeuroLog: Reasoning You Can Audit -- Neuro-Symbolic Vulnerability Discovery via LLM Facts, Datalog, and SMT

SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?

Demystifying the Mythos or Disrupting Bugonomics? From Zero-Day Asymmetry to Defender Remediation Throughput

FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Predecessor-aware Directed Greybox Fuzzing.

Continuous Discovery of Vulnerabilities in LLM Serving Systems with Fuzzing

Agentic Vulnerability Reasoning on Windows COM Binaries

Fuzzilicon: A Post-Silicon Microcode-Guided x86 CPU Fuzzer.

GoldenFuzz: Generative Golden Reference Hardware Fuzzing.

FirmAgent: Leveraging Fuzzing to Assist LLM Agents with IoT Firmware Vulnerability Discovery.

HyperMirage: Direct State Manipulation in Hybrid Virtual CPU Fuzzing.

SYSYPHUZZ: the Pressure of More Coverage.

Bookworm Game: Automatic Discovery of LTE Vulnerabilities Through Documentation Analysis.

Android SmartTVs Vulnerability Discovery via Log-Guided Fuzzing.

A Formal Security Analysis of the W3C Web Payment APIs: Attacks and Verification.