推荐 5.5
Conf: 50%
本文提出了 AuditBench,一个新的基准数据集,用于评估大型语言模型(LLM)在安全相关系统审计日志调查中的能力。该基准涵盖超过50种不同的安全调查场景,包括恶意和良性活动,数据来源于Linux和Windows机器的系统审计日志。作者设计了四个常见的日志调查任务:对检测器产生的告警进行分类、识别受损系统上的持久化机制等。使用该基准,评估了五种前沿LLM(如GPT-4、Claude等)的性能,分析了模型大小、数据表示、提示构造和具体任务等设计选择对性能的影响。此外,还刻画了LLM生成解释的质量和常见错误类型。该工作为评估LLM在安全日志调查中的能力提供了基础,为在安全运营中使用LLM的从业人员提供了新见解,并指明了未来研究方向。
💡 推荐理由: 该基准为安全运营团队评估和选择适合日志分析的LLM提供了标准化测试集,有助于提升自动化攻击调查能力。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)