#自然语言查询主题 - Cyber Security Daily Radar

👥 作者: Evan Luo, Julien Piet, David Wagner

安全分析师日常需要查询系统日志来检测威胁和调查事件，但不同日志源使用各自不同的半结构化格式，导致日志虽易产生却难使用。传统方法是为每种格式构建解析器将日志标准化为结构化模式（如SQL表），虽强大但需要持续工程投入。而直接使用grep等工具查询原始日志虽无需解析成本，但分析师需了解每种日志的消息变体，且无法表达安全调查所需的多行时间关联查询。本文提出Sieve系统，通过将大型语言模型（LLM）与轻量级自动提取的日志格式上下文相结合，从自然语言的安全问题生成可执行查询代码，每次查询仅需一次LLM调用，后续进行确定性执行。在覆盖5种日志类型的133个安全查询上评估，Sieve在复杂时间关联和跨事件查询上的错误率比分析师手动编写脚本降低超过3倍，尤其在对活跃调查最关键的多行关联任务上提升最大。实验证明，LLM生成的代码能够弥合结构化日志查询的表达能力与直接操作原始文件即时性之间的鸿沟。本文适合安全分析工具开发者、SOC团队及日志管理研究人员阅读。

💡 推荐理由: 提出了一种无需预定义解析器即可自然语言查询安全日志的方法，大幅降低分析师门槛和工程维护成本，在复杂事件关联场景下表现优异。

🎯 建议动作: 研究跟进，评估是否引入内部日志查询流水线替代或辅助人工编写查询。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#自然语言查询

Parser-Free Querying of Security Logs