#code-centric 主题 - Cyber Security Daily Radar

👥 作者: Christopher G. Pedraza Pohlenz, Hassan Jalil Hadi, Ali Hassan, Ali Shoker

本论文提出 LCC-LLM，一个面向恶意软件归因与多任务静态分析的代码中心基准数据集与证据驱动框架。研究背景是当前基于 LLM 的恶意软件归因受限于不支持的指标以及缺乏代码级别的证据支持，难以准确识别恶意和脆弱代码片段。为解决这些问题，作者构建了 LCCD 数据集，包含约 34,000 个 PE 样本，通过大规模逆向工程流水线处理，以反编译 C 代码、汇编代码、CFG/FCG 结构、十六进制数据、PE 元数据、可疑 API 证据和结构特征等多种形式表示。框架层面，LCC-LLM 整合了 LangGraph 编排的静态分析与多源网络安全知识，采用七层检索增强生成流水线、基于 CoVe 的 IoC 验证以及多维质量门控机制，提升事实可靠性和面向分析师的决策支持。使用课程顺序指令数据对 DeepSeek-R1-Distill-Qwen-14B 和 Qwen3-Coder-30B-A3B 进行 QLoRA 微调。在 43 种恶意软件分析任务类型上的评估显示平均语义相似度达到 0.634，在结构化报告生成、IoC 提取、漏洞评估、恶意软件配置提取和恶意软件类别检测等任务上表现最佳。基于 MalwareBazaar 样本的真实案例研究中，证据驱动流水线实现了 10/10 的结构化分析通过率，生成了 CFG/FCG 证据、MITRE ATT&CK 映射、检测指南和分析师就绪报告。结果表明代码中心表示、检索基础验证和推理指导提升了 LLM 辅助恶意软件归因的可靠性和实用价值。

💡 推荐理由: 该研究显著提升了 LLM 在恶意软件归因中的证据驱动能力，解决了现有方法缺乏代码级支持的问题，为安全分析师提供了更可靠的分析决策工具。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#code-centric

LCC-LLM: Leveraging Code-Centric Large Language Models for Malware Attribution