#meta-scaffold 主题 - Cyber Security Daily Radar

👥 作者: Víctor Mayoral-Vilches, Francesco Balassone, María Sanz-Gómez, Paul Zabalegui Landa, Daniel Sánchez Prieto, Marina Oteiza Álvarez, Davide Quarta, Martin Pinzger

该论文探讨了在网络安全人工智能中，哪种"支架"（harness）最为有效。当前网络安全智能体系统趋向于使用由大型语言模型（LLM）驱动的迭代shell循环作为单一执行支架，但不同支架之间缺乏互操作性和可替换性，且没有一种支架能在所有挑战类型中占据主导地位。为此，作者提出了一种名为CSI（网络安全超级智能）的元支架，它能够在一个统一的编排层下集成异构的智能体支架，使得任何LLM驱动的支架都可以在同一基础设施中部署、基准测试和组合。基于CSI，作者在33个cybench挑战上对五种支架（CSI::Claude、CSI::Codex、CSI::GCAI、CSI::Mistral、CSI::CAI）进行了基准测试，固定LLM为alias2-mini。结果表明：单一最佳支架能解决15/33（45.5%）的挑战；四个支架的联合解决17/33（51.5%），其中第五个支架（CSI::Mistral，解决10/33）贡献了一个独占的解决方案。作者发现，没有单一支架是最优的，真正带来最高覆盖率的是结构异构支架的组合。为了进一步验证，作者还实现了基于黑板的多智能体架构，其中不同支架专门化的智能体并行运行，通过共享黑板交换中间发现。该黑板架构解决了19/33（57.6%）的挑战，相对于最佳单一支架CSI::Claude（15/33，45.5%）实现了27%的相对提升，且速度更快（20.2小时对比26.8小时），成本相当（5,480美元对比5,122美元）。该研究为网络安全AI系统的设计和评估提供了重要见解，强调了组合异质支架提升覆盖率和效率的潜力。

💡 推荐理由: 该研究挑战了当前"单一AI支架"的主流做法，证明了通过组合异构支架可以显著提升自动化安全评估的覆盖率。对安全团队而言，这意味着在构建或选购AI安全工具时，不应局限于单一方案，而应考虑集成多种引擎以提高检测能力。

🎯 建议动作: 研究跟进：深入阅读论文并考虑在内部实验环境中部署类似的多支架编排架构，验证其效果。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#meta-scaffold

Towards Cybersecurity SuperIntelligence (CSI): What's the best harness for cybersecurity?