#multi-source logs 主题 - Cyber Security Daily Radar

👥 作者: Abir Ashab Niloy, Ahmed Ryan, Imamul Hossain Rafi, Md Erfan, Md Rayhanur Rahman

该论文针对多阶段网络攻击检测中缺乏同时覆盖系统、网络和浏览器日志的标注数据集的问题，构建了一个包含约230万条事件、870个会话（70个攻击会话、800个正常会话）的多源日志数据集。数据集在Windows端点同时捕获系统、网络和浏览器活动，并利用MITRE ATT&CK框架为恶意事件标注了12种战术和53种技术的技术ID。攻击数据使用真实工具生成，包括远程访问木马、命令与控制隧道和云数据泄露。为验证数据集的可学习性，论文使用低秩适配（LoRA）微调了三个小语言模型（SLM）：Qwen2.5-1.5B、Llama-3.2-3B和Phi-4-Mini，在分块分类和ATT&CK技术识别两个任务上评估性能。结果显示，微调后所有模型在所有指标上均优于基础版本，分块分类准确率从约8%提升至90%-97%，但技术精确匹配准确率最高仅为42%，部分匹配分数较高表明模型学到了大部分推理逻辑。该研究填补了现有数据集在涵盖三种日志源并具备ATT&CK技术级别标注方面的空白，为多阶段攻击检测的机器学习方法提供了宝贵资源。

💡 推荐理由: 此前缺乏同时覆盖系统、网络和浏览器日志且带有ATT&CK技术标注的公开数据集，该工作填补了这一空白，有助于训练更准确的跨源攻击检测模型。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#multi-source logs

Multi-Source Cybersecurity Logs: An ATT&CK-Labeled Dataset and SLM Evaluation