#log-anomaly-detection 主题 - Cyber Security Daily Radar

👥 作者: Samuel Ndichu, Tao Ban, Seiichi Ozawa, Takeshi Takahashi, Daisuke Inoue

本文提出了一种名为NLLog（Natural-Language Log）的轻量级日志异常检测管道，旨在解决系统日志因模板化格式导致难以被自动化分析和人工理解的问题。NLLog的核心思想是将解析后的日志模板确定性重写为“谁-做了什么-严重程度”（WHO-WHAT-SEVERITY）的自然语言句子，然后通过词频-逆文档频率（TF-IDF）加权进行池化，使用树集成（如随机森林）对会话进行分类，并利用TreeSHAP反向投影证据以辅助分析师审查。在Hadoop分布式文件系统（HDFS）和Blue Gene/L（BGL）数据集上的实验表明，NLLog超越了两种复现的匹配协议基线；在HDFS、BGL和AIT警报数据集上，NLLog在商用硬件上实现了低误报率，延迟适合安全运营中心（SOC）的初步分类。消融实验（覆盖度、稀疏vs密集、忠实性、对抗性测试）表明，回退充分性依赖于语料库；部署前的注册阶段覆盖度检查可以揭示需要改进的领域。可审计的确定性重写与轻量级密集编码相结合，为日志异常检测和分类提供了可衡量的表示层。该研究适合对日志分析、异常检测和可解释AI感兴趣的安全研究人员阅读。

💡 推荐理由: NLLog提供了一种轻量级、可解释的日志异常检测方法，通过将日志转换为自然语言句子降低分析门槛，适合SOC日常使用，同时保持低误报率和低延迟。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Junwei Zhou 0002, Yuyang Gao, Cheng Tan, Yanchao Yang 0002, Jianwen Xiang

该论文提出了一种名为 GLog 的自进化日志异常类型预测框架，旨在解决现有日志异常检测方法在多云和微服务环境中的局限性。传统方法通常只能进行二分类（正常/异常），难以适应动态变化的日志模式，且在日志解析过程中存在语义损失问题。GLog 是一个端到端框架，不需要人工标注的异常类型标签即可动态预测异常类型。其工作流程分为两个阶段：首先，使用正常/异常标签对指令微调的大语言模型（LLM）进行微调，使其能够在原始未解析的日志序列上实现高精度异常检测；然后，对检测到的异常进行聚类，自动生成伪异常类型标签和描述，并用于第二阶段微调，使模型能够预测具体的异常类型并输出可解释的结果。GLog 通过利用完整日志语义并动态更新异常类型库，减少了人工标注成本，能够适应大规模环境中系统行为的演化。实验在多个数据集上验证了其有效性。

💡 推荐理由: 该工作针对日志异常检测的细粒度分类和自适应能力不足提供了创新方案，结合 LLM 和聚类实现自动化的异常类型预测，有望减轻运维人员的分析负担。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#log-anomaly-detection

NLLog: Lightweight, Explainable SOC Anomaly Detection via Log-to-Language Rewriting

Poster: GLog: Self-Evolving Log Anomaly Type Prediction via Instruction-Tuned LLM and Clustering.