该论文提出了ExploitGym,一个用于评估AI代理漏洞利用能力的大规模、多样化、逼真的基准测试平台。随着AI代理能力的快速提升,其可能显著重塑网络安全格局,因此需要严格的评估。漏洞利用是将一个尚未成为攻击的漏洞转化为具体安全影响(如未授权文件访问或代码执行)的关键能力,是一项特别具有挑战性的任务,因为它需要底层程序推理(例如关于内存布局)、运行时适应性以及在长时间跨度内持续推进。同时,漏洞利用具有固有的双重用途,既支持防御工作流程,又降低了攻击的门槛。尽管其重要性和诊断价值,漏洞利用仍然缺乏充分的评估。为了填补这一空白,ExploitGym任务要求AI代理在给定触发漏洞的程序输入后,逐步将其扩展为可工作的利用代码。该基准测试包含来自三个领域的898个实例,这些实例源自现实世界的漏洞:用户空间程序、Google的V8 JavaScript引擎和Linux内核。研究人员对每个实例应用了不同的安全保护措施,以隔离它们对代理性能的影响。所有配置都打包在可重现的容器化环境中。评估结果表明,尽管漏洞利用仍然具有挑战性,但前沿模型能够成功利用非平凡比例的漏洞。例如,最强的配置是Anthropic的最新模型Claude Mythos Preview和OpenAI的GPT-5.5,它们分别对157个和120个实例产生了可工作的利用代码。值得注意的是,即使启用了广泛使用的防御措施,模型仍然保持了非平凡的成功率。这些结果确立了ExploitGym作为漏洞利用的有效测试平台,并突显了日益强大的AI代理带来的日益增长的网络安全风险。
💡 推荐理由: 该研究首次系统地评估了AI代理在真实世界漏洞上的利用能力,揭示了前沿模型已具备非平凡的自动化利用潜力,对蓝队评估自身防御有效性及红队攻击风险具有重要参考价值。
🎯 建议动作: 研究跟进