#adversary-emulation 主题 - Cyber Security Daily Radar

👥 作者: Jueon Choi, Seojun Lee, Sanggwon Yun, Kwanghoon Choi, Gunjin Cha

该论文提出了一种基于大语言模型（LLM）的端到端全自动对手模拟框架，能够从符合MITRE ATT&CK框架的网络威胁情报（CTI）报告中自动生成并执行对手模拟剧本，并在执行失败时自动恢复。与以往工作（如AURORA）需要手动干预或部分自动化不同，本框架将剧本生成、执行和失败恢复整合为一个统一工作流。具体而言，框架首先利用LLM解析CTI报告，提取战术、技术和程序（TTPs），并生成Caldera平台兼容的剧本；然后自动执行这些剧本以模拟攻击者的行为；当某个攻击能力（Ability）执行失败时，根据失败类型（如命令错误、环境不匹配等）触发针对性的恢复机制，重新生成或调整相关能力，直到成功或达到最大重试次数。论文在11份CTI报告上评估了Claude Sonnet 4.5、GPT-4o、Gemini 2.5 Pro和Grok 4 Fast四种LLM，结果显示Claude Sonnet 4.5最佳：每个剧本平均包含27.3个能力，经失败恢复后执行成功率达84.22%，CTI精度、召回率和F1值分别为73.95%、52.48%和60.50%。失败恢复机制在所有评估的LLM上持续提升了14.59至17.23个百分点的执行成功率。在从AURORA数据集中选取的10份CTI报告上，本框架的最终执行成功率超过了当前最先进的对手模拟系统AURORA。该研究证明了LLM在自动化对手模拟中的潜力，减少了人工参与，提高了安全测试的效率和覆盖面。适合安全研究员、红队和蓝队人员阅读，以了解如何利用LLM从CTI报告快速生成可执行的攻击模拟。

💡 推荐理由: 该研究首次实现了从CTI报告到对手模拟的全自动化闭环，包括失败恢复，显著降低了人工成本，能帮助蓝队快速验证检测规则的有效性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ahmed M. Elmisery

本文提出一种基于图的结构化评估方法（GBSE），用于评估大语言模型（LLM）在跨操作系统对手模拟程序翻译中的质量。对手模拟程序描述了多步攻击者流程，通常基于MITRE ATT&CK技术、权限需求和可观测遥测。LLM能够自动将这些程序从源操作系统（如Windows）翻译到目标操作系统（如Linux），但翻译可能仅重命名工具而保留源平台逻辑，导致防御者获得的目标平台覆盖不足。传统二元评分（如工具名称匹配）可能高估保真度，因为它只衡量可计数特征而非结构、可观测性和规则级别的等价性。GBSE将每个程序建模为有向属性图，并在四个层（技术、战术、遥测类和Sigma日志源）上计算归一化图编辑距离（GED）。该方法应用于一个29步骤的ALPHV/BlackCat Windows-to-Linux翻译案例，比较了重建的Windows控制版本与LLM生成的Linux版本。结果表明：技术和战术结构完全保留（GED=0，相似度=1.000）；遥测相似度降至0.897（GED=3），因为三个步骤包含未映射或漂移的可观测项；Sigma日志源相似度为1.000。所有状态被分类为中等保真度，最佳综合得分为0.674，未达到0.80的部署阈值，因为技术现实性得分为0.43（需0.990）。框架还包括二分图GED、将自由文本转换为可观测类的遥测意图解析器，以及49个经过验证的Sigma规则（19个Linux，30个Windows），这些规则提供了完整的ATT&CK技术覆盖且验证零发现。额外分析揭示了技术层面的分歧，例如基于RDP的外部访问映射到未加密的外泄，凭证存储访问映射到远程系统发现。研究结果可复现，并已与记录输出验证。本文适合安全评估人员、对手模拟工具开发者及LLM应用安全研究者阅读。

💡 推荐理由: LLM自动翻译对手模拟程序可能引入隐蔽的保真度损失，传统评分无法发现。本文提出的图结构评估方法能更精确地衡量翻译质量，帮助防御者避免依赖虚假的跨平台覆盖。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sidnei Barbieri, Ágney Lopes Roth Ferraz, Lourenço Alves Pereira Júnior

该论文研究了结构化网络威胁情报（CTI）在对手模拟、检测评估和网络靶场设计中的应用，重点探讨了目标系统测试环境（SUT）与公开CTI描述之间的语义差距。作者通过分析MITRE ATT&CK的STIX数据包（覆盖企业、移动、工业控制系统等场景），并与CAPEC和FiGHT数据集对比，评估了平台覆盖度、软件特异性、漏洞证据及部署兼容性。结果表明，平台标注较为常见，但软件引用中很少包含版本号或通用平台枚举（CPE）标识符。例如，在ATT&CK Enterprise数据中，97.6%的软件对象缺乏版本和CPE信息，且战役级别的CVE引用稀少。进一步分析发现，结构化CTI能够缩小候选环境范围并支持底层后端家族分配，但仅凭结构化字段不足以推导出可重放的SUT。当链接一个软件项时，配置文件混淆度为1.3%；链接两个软件项时降为0%。研究识别出数据集支持的环境细节与必须来自外部源的版本、漏洞和部署信息之间的边界。通过固定数据集支持的元素、仅变动分析人员输入的细节，可以生成多个不同的、与战役兼容的SUT，其中包括一个利用同一真实漏洞的可执行实验。因此，结构化CTI约束但并非唯一确定环境，强调在可重放模拟中需区分数据集支持的承诺与分析人员的假设。该研究适合安全分析师、红蓝队研究人员以及CTI平台开发者阅读，理解CTI在自动化对手模拟中的局限性和改进方向。

💡 推荐理由: 揭示了结构化CTI（如MITRE ATT&CK）在自动化对手模拟中的环境语义鸿沟，提醒安全团队不可盲目依赖CTI生成测试环境，需手动补充版本、CPE等细节。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Francesco Balassone, Víctor Mayoral-Vilches, María Sanz-Gómez, Paul Zabalegui-Landa, Stefan Rass, Davide Quarta, Daniel Sanchez-Prieto, Marina Oteiza-Álvarez, Almerindo Graziano, Lauren Min Kim, MinSeok Choi

该研究挑战了网络安全威胁情报（CTI）中基于战术、技术与程序（TTP）进行攻击归因的传统假设。传统方法认为每个攻击者会留下独特的操作指纹。研究者利用其开发的网络安全超级智能（CSI）框架，部署了配置为五个高级持续性威胁（APT）组织（APT28、APT29、APT41、APT44和Lazarus Group）的智能体，在CYBER RANGES提供的两个网络靶场（企业网络和军事基础设施）中，对抗AI驱动的防御者（使用Wazuh、Velociraptor、Elasticsearch等防御软件）。在20次实验中，无论APT模型或防御者模型如何，均出现二元模式：所有10次企业网络实验均被攻陷（每实验2至12台主机），而所有10次军事网络实验均成功防御或陷入僵局。更关键的是，在8次企业网络实验中，攻击者独立地将防御者自己的Velociraptor端点管理平台武器化为命令与控制（C2）通道，这是一种趋同行为，未在任何威胁情报配置文件中编码。研究者论证，在AI时代，只要拥有合适的模型、支撑框架和智能体配置，就可以部署智能体，使得像国家级APT一样行动的门槛大幅降低：不仅国家行为体，个人也可以模仿常见的威胁行为者，从而从根本上破坏基于TTP的归因基础。本文主要贡献在于通过实验揭示了AI驱动的对手模拟可能产生的趋同攻击行为，并指出TTP归因在未来可能不再可靠。

💡 推荐理由: 本研究直接质疑了CTI中核心的TTP归因方法，表明AI驱动的对手可以模仿多种APT行为并产生非编码的趋同行为，导致归因失效。这对安全运营、威胁猎杀和归因分析有深远影响，需重新评估传统TTP模型的可靠性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mohammad Mamun, Mohamed Gaber, Scott Buffett, Sherif Saad

本文研究了语言模型智能体（LMA）在红队操作中的应用潜力。随着LLM技术的发展，LMA能够辅助攻击规划、对手模拟以及多步活动编排，例如横向移动——这是高级持续性威胁（APT）攻击的核心能力之一。作者利用MITRE ATT&CK框架分析了LMA与核心进攻功能的交集，并评估了其在治理和现实评估场景下的优势与局限性。在受控的对手模拟环境中，作者针对两个横向移动场景对LMA进行了基准测试：LMA与仪器化的网络智能体交互，观察执行产物，并基于环境反馈迭代调整行为。每个场景被形式化为有序任务链，带有明确的验证谓词，并采用LLM-as-a-Judge范式确保确定性结果验证。研究比较了三种操作模式：完全自主执行、自规划执行和专家定义行动计划。初步结果表明，专家定义行动计划在任务完成率上优于其他模式；然而，所有模式下失败仍然频繁，主要原因包括脆弱的命令调用、环境和部署的不稳定性，以及在凭据管理和状态处理中的反复错误。该研究为红队自动化提供了初步见解，指出了当前LMA在实用化中面临的挑战。

💡 推荐理由: 本文系统评估了LLM智能体在红队自动化中的能力边界，揭示了当前技术条件下自主攻击编排的失败模式，对安全运营团队评估AI辅助红队工具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversary-emulation

Fully Automated End-to-End Adversary Emulation from MITRE ATT\&CK Based Cyber Threat Intelligence Using LLMs

Graph-Based Structural Evaluation of LLM-Translated Adversary Emulation Procedures

AutoSUT: The Environment Semantics Gap in Structured CTI for Adversary Emulation

Synthetic APTs: the Collapse of TTP-Based Attribution

Autonomous Adversary: Red-Teaming in the age of LLM