推荐 5.5
Conf: 50%
本文研究了语言模型智能体(LMA)在红队操作中的应用潜力。随着LLM技术的发展,LMA能够辅助攻击规划、对手模拟以及多步活动编排,例如横向移动——这是高级持续性威胁(APT)攻击的核心能力之一。作者利用MITRE ATT&CK框架分析了LMA与核心进攻功能的交集,并评估了其在治理和现实评估场景下的优势与局限性。在受控的对手模拟环境中,作者针对两个横向移动场景对LMA进行了基准测试:LMA与仪器化的网络智能体交互,观察执行产物,并基于环境反馈迭代调整行为。每个场景被形式化为有序任务链,带有明确的验证谓词,并采用LLM-as-a-Judge范式确保确定性结果验证。研究比较了三种操作模式:完全自主执行、自规划执行和专家定义行动计划。初步结果表明,专家定义行动计划在任务完成率上优于其他模式;然而,所有模式下失败仍然频繁,主要原因包括脆弱的命令调用、环境和部署的不稳定性,以及在凭据管理和状态处理中的反复错误。该研究为红队自动化提供了初步见解,指出了当前LMA在实用化中面临的挑战。
💡 推荐理由: 本文系统评估了LLM智能体在红队自动化中的能力边界,揭示了当前技术条件下自主攻击编排的失败模式,对安全运营团队评估AI辅助红队工具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)