推荐 5.5
Conf: 50%
该论文提出了 ExploitBench,一个能力阶梯式基准测试,用于评估 LLM 驱动的网络安全代理的漏洞利用能力。现有 LLM 安全基准通常将崩溃视为利用成功,忽略了从触发漏洞到构建原语、控制流劫持、任意代码执行等关键步骤。作者将利用过程分解为 16 个可测量的能力标志,涵盖覆盖度、崩溃、沙箱原语、任意读/写、控制流劫持、任意代码执行等阶段。每个能力通过确定性预言机验证:使用每轮随机挑战-响应验证原语、基于差分执行测量进展、并通过信号处理器证明代码执行。实验基于 41 个 V8 漏洞实例化 ExploitBench,V8 因其广泛部署和强利用缓解措施被选中。论文报告了三组实验:<模型,环境>作为主要测量;<模型,环境,自适应辅导>引入自适应反馈测试针对性指导的影响;<模型,环境,工具集>替换为模型原生 CLI 以检查厂商优化是否提升利用能力。结果表明,公开前沿模型与私有前沿模型之间存在显著能力差距:8 个公开模型能常规到达漏洞代码并触发崩溃,但无法实现任意代码执行;而私有模型在约一半漏洞上实现了任意代码执行。论文认为,针对强化目标的利用构建是新兴的前沿能力。
💡 推荐理由: 该基准首次将漏洞利用能力细粒度量化,为评估 LLM 在真实攻击场景中的极限提供了标准化工具,有助于安全社区理解当前模型的能力边界并指导安全产品设计。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)