#information-extraction

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Liangyi Huang, Zichen Liu, Fei Shao, Shang Ma, Mengshi Zhang, Zihao Chen, Yanfang Ye, Xusheng Xiao

安全知识图谱能为安全智能体提供可计算的外部记忆,但从长篇网络威胁情报(CTI)文本中构建知识图谱面临挑战:大语言模型(LLM)缺乏扎实的安全领域知识,且端到端的文档-图谱训练难以用廉价稳定的奖励进行监督。本文提出 GRID(Graph Representation of Intelligence Data)框架,一种端到端的安全文本知识图谱构建方法。GRID 首先从 CTI 文章构建安全领域监督:通过图提取和知识图谱条件文本修订,创建可追溯的文章-图对齐。然后将文档-图谱学习转化为脚本任务库,结合四选多选问题和三元组级正则匹配目标,生成比 LLM 评判器反复评分更稳定的任务特定奖励。利用该监督流水线,训练了两个基于 Qwen3-4B-Instruct-2507 的 4B 提取器:主模型任务库奖励模型和辅助模型端到端奖励模型(后者使用 LLM 评判器的精确率/召回率奖励)。在来自 GRID、CASIE、CTINexus、MalKG 和 SecureNLP 的 249 篇 CTI 文章上,结合本体引导的 GRID 提取流水线的任务库奖励模型达到了 84.62% 的来源平均精确率、64.91% 的来源平均召回率和 68.53% 的平均 F1 值,实现了最佳来源平均召回率和接近最高的平均 F1,同时 token 使用和部署成本更低。端到端奖励模型达到 76.91% 精确率、53.85% 召回率和 58.06% 平均 F1。进一步分析表明,任务库奖励可一次性离线构建,并在后续后训练运行中复用,性能优于在线端到端 LLM 评判器奖励以及更弱的替代方案(如仅选择奖励和无需强化学习的端到端 SFT)。

💡 推荐理由: GRID 提出了一种新颖的、更稳定的方法将 CTI 文本自动转换为知识图谱,通过离线任务库奖励避免了 LLM 评判器的高成本和不稳定性,显著提升了知识图谱构建的精度和召回率,对安全自动化分析具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)