#reference-harness

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Andreas Happe, Jürgen Cito

该论文提出了 Cochise,一个面向自主渗透测试实验的轻量级参考框架(harness),仅 597 行 Python 代码。Cochise 的核心贡献在于提供了一个可复现的实验基础设施,使研究人员能够独立于具体的 LLM 模型、Agent 架构或工具集成来比较不同设计选择。框架采用分离的 Planner-Executor 架构:Planner 负责高层规划,长期状态维护在 LLM 上下文之外;Executor 基于 ReAct 模式通过 SSH 向 Linux 执行主机发送命令,并根据命令输出进行自我纠正。场景提示可以针对不同目标环境进行调整。为验证框架的有效性,作者在 Game of Active Directory (GOAD) 第三方测试床上进行了评估,GOAD 是一个 Active Directory 渗透测试靶场。实验结果显示 Cochise 能够自主完成多步攻击路径。此外,论文还发布了三个辅助工具:cochise-replay(离线回放捕获的会话)、cochise-analyze-logs 和 cochise-analyze-graphs(用于成本、令牌数、耗时和入侵程度分析),以及一组来自 GOAD 实验的 JSON 轨迹日志语料库,使研究者无需搭建高资源环境(48-64 GB RAM / 190 GB 存储)即可研究 Agent 行为。论文明确指出 Cochise 并非最先进的渗透测试 Agent,而是一个可复用的实验平台,用于比较不同模型、Agent 架构和渗透测试痕迹。该研究对 LLM 驱动的自主安全评估领域具有重要支撑价值。

💡 推荐理由: 为自主渗透测试研究提供了标准化、可复现的实验框架,解决了当前该领域因系统复杂度高导致难以比较不同方法的问题,对推动 LLM Agent 在安全评估中的应用基础研究有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)