#security logs 主题 - Cyber Security Daily Radar

👥 作者: Aniket Anand, Yiwei Hou, Daniel Fields, Alex Kantchelian, David Tao, Kurt Thomas, Grant Ho

本文提出了 AuditBench，一个新的基准数据集，用于评估大型语言模型（LLM）在安全相关系统审计日志调查中的能力。该基准涵盖超过50种不同的安全调查场景，包括恶意和良性活动，数据来源于Linux和Windows机器的系统审计日志。作者设计了四个常见的日志调查任务：对检测器产生的告警进行分类、识别受损系统上的持久化机制等。使用该基准，评估了五种前沿LLM（如GPT-4、Claude等）的性能，分析了模型大小、数据表示、提示构造和具体任务等设计选择对性能的影响。此外，还刻画了LLM生成解释的质量和常见错误类型。该工作为评估LLM在安全日志调查中的能力提供了基础，为在安全运营中使用LLM的从业人员提供了新见解，并指明了未来研究方向。

💡 推荐理由: 该基准为安全运营团队评估和选择适合日志分析的LLM提供了标准化测试集，有助于提升自动化攻击调查能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#security logs

Benchmarking and Exploring the Capabilities of LLMs for Attack Investigations