#exploit-capability 主题 - Cyber Security Daily Radar

👥 作者: Seunghyun Lee, David Brumley

该论文提出了 ExploitBench，一个能力阶梯式基准测试，用于评估 LLM 驱动的网络安全代理的漏洞利用能力。现有 LLM 安全基准通常将崩溃视为利用成功，忽略了从触发漏洞到构建原语、控制流劫持、任意代码执行等关键步骤。作者将利用过程分解为 16 个可测量的能力标志，涵盖覆盖度、崩溃、沙箱原语、任意读/写、控制流劫持、任意代码执行等阶段。每个能力通过确定性预言机验证：使用每轮随机挑战-响应验证原语、基于差分执行测量进展、并通过信号处理器证明代码执行。实验基于 41 个 V8 漏洞实例化 ExploitBench，V8 因其广泛部署和强利用缓解措施被选中。论文报告了三组实验：<模型,环境>作为主要测量；<模型,环境,自适应辅导>引入自适应反馈测试针对性指导的影响；<模型,环境,工具集>替换为模型原生 CLI 以检查厂商优化是否提升利用能力。结果表明，公开前沿模型与私有前沿模型之间存在显著能力差距：8 个公开模型能常规到达漏洞代码并触发崩溃，但无法实现任意代码执行；而私有模型在约一半漏洞上实现了任意代码执行。论文认为，针对强化目标的利用构建是新兴的前沿能力。

💡 推荐理由: 该基准首次将漏洞利用能力细粒度量化，为评估 LLM 在真实攻击场景中的极限提供了标准化工具，有助于安全社区理解当前模型的能力边界并指导安全产品设计。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#exploit-capability

ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents