#exploit-benchmark 主题 - Cyber Security Daily Radar

👥 作者: Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song

该论文提出了ExploitGym，一个用于评估AI代理漏洞利用能力的大规模、多样化、逼真的基准测试平台。随着AI代理能力的快速提升，其可能显著重塑网络安全格局，因此需要严格的评估。漏洞利用是将一个尚未成为攻击的漏洞转化为具体安全影响（如未授权文件访问或代码执行）的关键能力，是一项特别具有挑战性的任务，因为它需要底层程序推理（例如关于内存布局）、运行时适应性以及在长时间跨度内持续推进。同时，漏洞利用具有固有的双重用途，既支持防御工作流程，又降低了攻击的门槛。尽管其重要性和诊断价值，漏洞利用仍然缺乏充分的评估。为了填补这一空白，ExploitGym任务要求AI代理在给定触发漏洞的程序输入后，逐步将其扩展为可工作的利用代码。该基准测试包含来自三个领域的898个实例，这些实例源自现实世界的漏洞：用户空间程序、Google的V8 JavaScript引擎和Linux内核。研究人员对每个实例应用了不同的安全保护措施，以隔离它们对代理性能的影响。所有配置都打包在可重现的容器化环境中。评估结果表明，尽管漏洞利用仍然具有挑战性，但前沿模型能够成功利用非平凡比例的漏洞。例如，最强的配置是Anthropic的最新模型Claude Mythos Preview和OpenAI的GPT-5.5，它们分别对157个和120个实例产生了可工作的利用代码。值得注意的是，即使启用了广泛使用的防御措施，模型仍然保持了非平凡的成功率。这些结果确立了ExploitGym作为漏洞利用的有效测试平台，并突显了日益强大的AI代理带来的日益增长的网络安全风险。

💡 推荐理由: 该研究首次系统地评估了AI代理在真实世界漏洞上的利用能力，揭示了前沿模型已具备非平凡的自动化利用潜力，对蓝队评估自身防御有效性及红队攻击风险具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#exploit-benchmark

ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?