#neuro-symbolic 主题 - Cyber Security Daily Radar

👥 作者: Alon Shakevsky, Corban Villa, Ion Stoica, Raluca Ada Popa

Antiproof 是一个端到端的漏洞发现系统，旨在同时实现高召回率和可靠自动验证，解决现有方法在成本和效果之间的权衡。系统核心结合了神经符号检测器合成（neuro-symbolic detector synthesis）和可利用性证明预言机（proof-of-exploitability oracles）。首先，Antiproof 从漏洞数据集中学习静态检测器，并通过迭代优化提升召回率；然后，利用预言机验证候选漏洞是否具备可执行的利用证明，从而确认攻击者能否实际利用。实验在 BountyBench 和自建的 KEVBench 数据集上进行，Antiproof 成功检测出 66 个漏洞中的 64 个，召回率相比静态分析基线和神经符号基线提升超过 60 个百分点。在对 50 个广泛部署系统的扫描中，Antiproof 发现了数百个先前未知的漏洞。截至论文发表，已负责任披露所有确认的零日漏洞，并获分配 12 个 CVE 编号，其中包括 Ray、SGLang、vLLM 和 LiteLLM 中的远程代码执行漏洞，这些漏洞可能允许攻击者控制大模型训练和推理系统。该研究适合安全研究人员、漏洞挖掘工程师以及 LLM 基础设施维护者阅读。

💡 推荐理由: 提出一种兼顾高召回与自动化验证的漏洞发现新范式，并在真实系统中发现大量零日漏洞，包括影响 LLM 基础设施的 RCE，直接提升防御者针对 AI 供应链的安全能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Henry Kabuye, Biju Issac, Jeyamohan Neera

本文提出了一种名为Agentic SABRE（Semantic-Behavioural Arbitration for Ransomware Evaluation）的不确定性感知、神经符号多智能体框架，用于自适应勒索软件检测。核心问题在于传统静态签名和单一分类器难以应对勒索软件的漂移、规避和行为多态性。方法上，SABRE融合了基于语义的表示证据与基于行为的时序取证，并通过蒙特卡洛Dropout推断为每个智能体量化认知不确定性。引入决策层编排器，使用风险评分和不确定性预算两个可解释阈值：高置信度、高风险的样本自动处置，不确定或边界样本上报给人工分析师，建立了自主响应与分析监督之间的灵活计算契约。此外，SABRE集成了事后可解释性机制，包括梯度显著性、排列重要性和反事实分析，支持局部和全局决策解释。在RDset和RanSMAP数据集上的评估表明，Agentic SABRE在饱和语义数据集上保持完美区分（AUC=1.0），在弱行为信号下提升了鲁棒性，在同等召回率下误报率相对降低最多4.9%，且反事实分析显示语义和行为决策均可在有界扰动成本下逆转，表明决策边界稳定且可解释。本论文适合安全研究人员、SOC分析师及关注AI驱动检测的从业者阅读。

💡 推荐理由: 该框架通过不确定性量化和人机协同，显著提升了勒索软件检测的鲁棒性和可解释性，为应对复杂自适应攻击提供了新范式。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sanjay Rawat

本文提出 NeuroLog，一个端到端、无需构建环境的漏洞发现流水线，用于 C/C++ 源代码。核心思路是将 LLM、Datalog（Soufflé）和 SMT 求解器（Z3）分层协作：LLM 逐个函数提取类型化的数据流事实；Soufflé 规则网将这些事实组合成跨函数的发现；Z3 后处理过滤不可行路径并为每个幸存路径输出 SAT 模型。为超越纯静态分析，还引入运行时证据：从少量语料种子导出的可能范围不变量以极低成本收紧 SMT 问题。第二个 LLM 智能体读取每个 SAT 模型并编写 Python 程序生成候选崩溃输入，由 AddressSanitizer 验证。实验覆盖 stb、cJSON、libxml2、FFmpeg demuxer 切片和 curl 8.3.0，重新发现了 8 个 CVE 类问题，包括 CVSS 9.8 的 SOCKS5 堆溢出 CVE-2023-38545。在 libarchive HEAD 上发现 5 个内存安全漏洞（4 个先前未报告），其中 cpio use-after-free 在 7 小时内得到确认。提取阶段约 37 秒、成本 $0.005（stb）；崩溃合成将静态发现转化为 102 字节的 stb_vorbis 崩溃（两轮 LLM 交互）。来自三个 Matroska 种子的似然不变性过滤器消除了 FFmpeg demuxer 可行集中的 13.2%。该方法结合了静态缩小 SMT（Saturn, Pinpoint）和 Datalog 与 SMT（Formulog）的先前工作，新贡献在于 LLM 推导的事实库、无构建流水线以及将 SAT 模型作为合成崩溃输入的制品而非简单的是/否判定。适合安全研究人员、漏洞发现工程师和软件质量保障团队阅读。

💡 推荐理由: 该方法首次将LLM、Datalog和SMT求解器无缝集成，无需构建环境即可发现真实CVE，显著降低了漏洞挖掘的门槛和成本。其可解释性（审计SAT模型）和实用性（直接生成验证过的崩溃输入）对蓝队和安全工程师极具价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Guangze Zhao, Yongzheng Zhang, Weilin Gai, Hongri Liu, Yuliang Wei, Bailing Wang

这篇论文针对高级持续性威胁（APT）场景下的攻击溯源重建问题，提出了一种神经符号框架 HunterAgent。现代安全运营中心（SOC）虽能通过告警筛选减少误报，但面对使用反取证技术（如父进程PID欺骗、日志擦除、无文件执行）的APT攻击时，现有基于溯源图的方法因日志部分损坏或反取证操作导致图分裂为不连通子图，无法重建完整攻击链。此外，无约束的大语言模型（LLM）虽能生成流畅叙事，但会虚构不符合操作系统物理规律的因果链接，导致溯源报告在法律上不可采信。HunterAgent 将溯源重建问题建模为部分可观测条件下的代价有界启发式图搜索。其核心是一个非对称的生成器-验证器流水线：生成器（LLM）在类型化本体中提出语义假设，验证器通过存活的正交遥测数据中的标识符级碰撞来验证每个假设。为连接断裂的痕迹，HunterAgent 使用结合语义差异和操作系统时间势能的校准代价对跳转打分，并硬性剪除违反模式的路径。此外，长度折扣的认知预算防止推理漂移，强制优雅终止。在三个公开基准和一个内部40条痕迹数据集上，采用严格的LOFO交叉验证，HunterAgent 平均F1达到86.1%，比最好的基于智能体的基线高26.7个百分点，比KAIROS高17.1个百分点，同时将路径级幻觉从61.5%降至6.4%。在70%日志擦除情况下，召回率虽下降但精度仍保持≥84%，且95.7%的情况安全终止。所有结果在至少一个正交遥测源存活的实际假设下成立。该方法适合安全分析师、威胁狩猎人员及AI安全研究者关注，为实际环境中的自动化溯源提供了可行的神经符号融合思路。

💡 推荐理由: 该工作首次将神经符号方法与启发式图搜索结合，解决了LLM在攻击溯源中的幻觉问题，同时显著提升了反取证场景下的重建性能，为自动化威胁狩猎提供了高精度、可解释的解决方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#neuro-symbolic

Antiproof: Synthesizing Vulnerability Detectors and Proofs of Exploitability

Agentic SABRE: An Uncertainty-Aware Neuro-Symbolic Multi-Agent Framework for Adaptive Ransomware Detection

NeuroLog: Reasoning You Can Audit -- Neuro-Symbolic Vulnerability Discovery via LLM Facts, Datalog, and SMT

HunterAgent: Neuro-Symbolic Attack Trace Reconstruction under Anti-Forensics