推荐 5.5
Conf: 50%
本文提出了一种名为NLLog(Natural-Language Log)的轻量级日志异常检测管道,旨在解决系统日志因模板化格式导致难以被自动化分析和人工理解的问题。NLLog的核心思想是将解析后的日志模板确定性重写为“谁-做了什么-严重程度”(WHO-WHAT-SEVERITY)的自然语言句子,然后通过词频-逆文档频率(TF-IDF)加权进行池化,使用树集成(如随机森林)对会话进行分类,并利用TreeSHAP反向投影证据以辅助分析师审查。在Hadoop分布式文件系统(HDFS)和Blue Gene/L(BGL)数据集上的实验表明,NLLog超越了两种复现的匹配协议基线;在HDFS、BGL和AIT警报数据集上,NLLog在商用硬件上实现了低误报率,延迟适合安全运营中心(SOC)的初步分类。消融实验(覆盖度、稀疏vs密集、忠实性、对抗性测试)表明,回退充分性依赖于语料库;部署前的注册阶段覆盖度检查可以揭示需要改进的领域。可审计的确定性重写与轻量级密集编码相结合,为日志异常检测和分类提供了可衡量的表示层。该研究适合对日志分析、异常检测和可解释AI感兴趣的安全研究人员阅读。
💡 推荐理由: NLLog提供了一种轻量级、可解释的日志异常检测方法,通过将日志转换为自然语言句子降低分析门槛,适合SOC日常使用,同时保持低误报率和低延迟。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)