本文提出 AIRTAG,一个基于无监督学习的自动化攻击调查框架,旨在从原始日志文本中自动识别攻击事件、生成语义标签并定位根因,无需依赖预定义的攻击知识库或规则。现有攻击调查方法通常需要人工定义攻击模式或依赖规则匹配,难以应对新型或变种攻击。AIRTAG 利用预训练语言模型(如 BERT)将日志消息编码为上下文感知的语义向量,通过无监督聚类算法(如 HDBSCAN)将日志分组为不同的事件簇,每个簇代表一个攻击步骤或原子行为。然后利用时间序列分析和图论方法构建事件之间的时序因果关系,最终生成攻击调查图并推断根因。实验在多个公开数据集(如 DARPA TC、OpenStack 日志)上评估,结果表明 AIRTAG 能够有效识别多步攻击链,在真实攻击场景下达到高准确率(F1 分数超过 0.9),并且比现有监督方法具有更好的可迁移性。该工作的主要贡献在于:1) 提出了完全无监督的日志语义理解框架;2) 结合预训练语言模型与聚类、时序推理,实现了对未知攻击的自动调查;3) 公开了原型系统和实验数据,为后续研究提供基准。
💡 推荐理由: 自动化攻击调查是 SOC 痛点,该工作无需知识库即可从日志中还原攻击链,有望降低分析师手动关联日志的人力成本,并提升对新型攻击的响应速度。
🎯 建议动作: 研究跟进