该论文探讨了在网络安全人工智能中,哪种"支架"(harness)最为有效。当前网络安全智能体系统趋向于使用由大型语言模型(LLM)驱动的迭代shell循环作为单一执行支架,但不同支架之间缺乏互操作性和可替换性,且没有一种支架能在所有挑战类型中占据主导地位。为此,作者提出了一种名为CSI(网络安全超级智能)的元支架,它能够在一个统一的编排层下集成异构的智能体支架,使得任何LLM驱动的支架都可以在同一基础设施中部署、基准测试和组合。基于CSI,作者在33个cybench挑战上对五种支架(CSI::Claude、CSI::Codex、CSI::GCAI、CSI::Mistral、CSI::CAI)进行了基准测试,固定LLM为alias2-mini。结果表明:单一最佳支架能解决15/33(45.5%)的挑战;四个支架的联合解决17/33(51.5%),其中第五个支架(CSI::Mistral,解决10/33)贡献了一个独占的解决方案。作者发现,没有单一支架是最优的,真正带来最高覆盖率的是结构异构支架的组合。为了进一步验证,作者还实现了基于黑板的多智能体架构,其中不同支架专门化的智能体并行运行,通过共享黑板交换中间发现。该黑板架构解决了19/33(57.6%)的挑战,相对于最佳单一支架CSI::Claude(15/33,45.5%)实现了27%的相对提升,且速度更快(20.2小时对比26.8小时),成本相当(5,480美元对比5,122美元)。该研究为网络安全AI系统的设计和评估提供了重要见解,强调了组合异质支架提升覆盖率和效率的潜力。
💡 推荐理由: 该研究挑战了当前"单一AI支架"的主流做法,证明了通过组合异构支架可以显著提升自动化安全评估的覆盖率。对安全团队而言,这意味着在构建或选购AI安全工具时,不应局限于单一方案,而应考虑集成多种引擎以提高检测能力。
🎯 建议动作: 研究跟进:深入阅读论文并考虑在内部实验环境中部署类似的多支架编排架构,验证其效果。