#information-extraction 主题 - Cyber Security Daily Radar

👥 作者: Liangyi Huang, Zichen Liu, Fei Shao, Shang Ma, Mengshi Zhang, Zihao Chen, Yanfang Ye, Xusheng Xiao

安全知识图谱能为安全智能体提供可计算的外部记忆，但从长篇网络威胁情报（CTI）文本中构建知识图谱面临挑战：大语言模型（LLM）缺乏扎实的安全领域知识，且端到端的文档-图谱训练难以用廉价稳定的奖励进行监督。本文提出 GRID（Graph Representation of Intelligence Data）框架，一种端到端的安全文本知识图谱构建方法。GRID 首先从 CTI 文章构建安全领域监督：通过图提取和知识图谱条件文本修订，创建可追溯的文章-图对齐。然后将文档-图谱学习转化为脚本任务库，结合四选多选问题和三元组级正则匹配目标，生成比 LLM 评判器反复评分更稳定的任务特定奖励。利用该监督流水线，训练了两个基于 Qwen3-4B-Instruct-2507 的 4B 提取器：主模型任务库奖励模型和辅助模型端到端奖励模型（后者使用 LLM 评判器的精确率/召回率奖励）。在来自 GRID、CASIE、CTINexus、MalKG 和 SecureNLP 的 249 篇 CTI 文章上，结合本体引导的 GRID 提取流水线的任务库奖励模型达到了 84.62% 的来源平均精确率、64.91% 的来源平均召回率和 68.53% 的平均 F1 值，实现了最佳来源平均召回率和接近最高的平均 F1，同时 token 使用和部署成本更低。端到端奖励模型达到 76.91% 精确率、53.85% 召回率和 58.06% 平均 F1。进一步分析表明，任务库奖励可一次性离线构建，并在后续后训练运行中复用，性能优于在线端到端 LLM 评判器奖励以及更弱的替代方案（如仅选择奖励和无需强化学习的端到端 SFT）。

💡 推荐理由: GRID 提出了一种新颖的、更稳定的方法将 CTI 文本自动转换为知识图谱，通过离线任务库奖励避免了 LLM 评判器的高成本和不稳定性，显著提升了知识图谱构建的精度和召回率，对安全自动化分析具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#information-extraction

GRID: Graph Representation of Intelligence Data for Security Text Knowledge Graph Construction