#multi-agent

共收录 14 条相关安全情报。

← 返回所有主题
👥 作者: Timothy McAllister, Sina Abdidizaji, Ivan Garibay, Ozlem Ozmen Garibay

本文研究基于大语言模型的多智能体系统(MAS)在面临敌对攻击时的鲁棒性问题,特别关注模型规模与系统级安全之间的关系。作者在HumanEval基准上,使用两个开源模型家族(不同参数量)进行实验,评估线性多智能体工作流的安全性。实验发现一种“服从-修正对称性”:在无修正的流水线中,较大模型(如27B参数)更可能忠实地执行恶意指令,导致控制组与恶意组性能差距高达53.7个百分点;然而,添加一个轻量级的终端“修复器”(Fixer)阶段后,该差距骤降至0.6个百分点,并恢复与对照组统计上无差异的性能。这表明,严格的线性协作结构在足够大的模型规模下可以具有鲁棒性,并且先前归因于线性拓扑的脆弱性可能源于缺乏修正机制。论文的核心贡献在于揭示了模型规模对MAS安全性的双刃剑效应,并提出了一个简单有效的修复策略,为构建可扩展且安全的多智能体系统提供了新视角。适合对LLM安全、多智能体系统及对抗鲁棒性感兴趣的研究人员阅读。

💡 推荐理由: 多智能体系统正被部署于实际场景,其安全性至关重要。本研究发现模型规模越大越易被利用,但线性流水线加修复可大幅提升鲁棒性,为安全设计提供了可操作的启示。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jiongchi Yu, Xiaofei Xie, Qiang Hu, Yuhan Ma, Ziming Zhao 0008

内部威胁是企业安全领域持续存在的重大风险,但由于恶意行为常隐藏于细微的用户活动中,在复杂企业环境下难以检测。现有基于机器学习的内部威胁检测(ITD)技术受限于高质量、真实训练数据的缺乏——公共数据集规模小,合成数据集缺乏泛化性、丰富语义和真实行为模式。本文提出Chimera,一个基于大语言模型的多智能体框架,可自动模拟良性及恶意的内部活动,并监控跨企业环境的系统日志。Chimera将每个智能体建模为具有精细角色的个体员工,并引入小组会议、成对交互和自组织调度以捕捉真实组织动态。基于从真实事件抽象出的15种内部攻击类型,Chimera在三个典型数据敏感组织场景中部署,构建了新数据集ChimeraLog。通过人工研究和定量分析验证了数据集的多样性和真实性。现有ITD方法在ChimeraLog上的检测性能显著低于现有数据集,表明其是更具挑战性和现实性的基准。尽管存在分布偏移,在ChimeraLog上训练的ITD模型展现出强泛化能力,凸显了基于LLM的多智能体仿真在推进ITD方面的实用价值。

💡 推荐理由: 当前内部威胁检测因缺乏高质量训练数据而受限,Chimera通过LLM多智能体仿真生成更真实、多样化的数据集,直接提升检测模型的现实适用性,对蓝队和SOC构建有效内部威胁检测系统具有重要意义。

🎯 建议动作: 研究跟进,评估ChimeraLog数据集及多智能体仿真方法对内部威胁检测模型训练的潜在价值

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Saeid Jamshidi

随着物联网设备数量的激增,网络攻击面显著扩大,包括零日攻击和对抗性入侵在内的复杂威胁日益严重。传统的入侵检测系统(IDS)难以泛化至未知攻击,计算资源需求高且缺乏可解释性,尤其在资源受限、异构的物联网网络中。本文提出一种基于语义的多智能体入侵检测系统(Semantic Multi-Agent IDS),通过集成四个专门化的智能体:Scout(从语义嵌入中诱导结构化假设)、Mutator(生成对抗性约束变体)、Auditor(评估一致性并过滤不可靠输出)和Arbiter(产生可解释、风险感知的警报),结合语义嵌入和多阶段概率决策融合,实现对零日攻击和对抗性威胁的鲁棒检测。在多个真实物联网数据集上的实验表明,该系统整体检测准确率达95.9%,误报率降至6.8%,零日攻击检测率提升至87.9%,同时保持适用于边缘部署的计算效率。该研究为物联网环境下的入侵检测提供了新颖的、可解释的、资源高效的解决方案。

💡 推荐理由: 本文提出的多智能体语义IDS结合了LLM语义推理和概率决策融合,显著提升了零日攻击检测能力和可解释性,为资源受限的物联网环境提供了实用的防御方案,值得蓝队和安全工程师关注。

🎯 建议动作: 研究跟进,评估其实验结果与自身环境的适配性。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Saeid Jamshidi, Amin Nikanjam, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

本文针对大型语言模型在多轮交互中长期上下文推理的安全性问题展开研究。在多轮对话中,LLM需要维护一个动态演变的上下文,而不仅仅是生成孤立回复,这使得模型容易受到提示注入和上下文投毒攻击——攻击者通过注入局部的看似合理的对抗性片段,逐步扭曲模型的推理轨迹。现有的防御手段主要关注单轮输出过滤,忽视了跨轮上下文的演化,导致长时间跨度的推理暴露在风险中。虽然模型上下文协议(MCP)标准化了上下文交换和工具调用,但它仅作为一个被动的路由层,无法强制执行上下文的稳定性。为此,本文提出了博弈论安全模型上下文协议(GT-MCP),一种控制器驱动的多智能体方法,将上下文管理视为一个闭环动态过程。GT-MCP协调三个异构的LLM智能体,并通过一个信任函数选择输出,该函数联合评估:输出的因果一致性与已验证的上下文图的匹配程度、智能体间的语义一致性,以及随时间的分布漂移。当检测到不稳定性时,一个基于回滚的自我修复机制会恢复已验证的上下文,阻止未受支持的片段传播。在自适应对抗威胁模型下,对500轮交互的实证评估表明:99.6%的轮次中上下文漂移保持有界,仅0.4%的轮次需要恢复;每轮效用高度集中(中位数-0.19,P05=-0.72,P95=0.30),严重退化(低于-1)仅占0.4%;在控制器层面没有注入攻击成功;选定输出的胜率稳定在98%以上;计算开销可预测,每token延迟为1.63e-3秒。

💡 推荐理由: 本文提出了一种新颖的基于博弈论的多智能体控制方法,在LLM长期对话中主动防御上下文投毒和提示注入攻击,填补了现有防御仅针对单轮输出的空白,对部署LLM应用的蓝队具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Saeid Jamshidi

该论文研究了多智能体大语言模型(LLM)系统中的集体幻觉问题,将幻觉建模为一种系统级、随时间演化的过程,发生在一个由相互交互的LLM代理构成的网络中。节点代表代理,边代表信息交换。所提出的形式化方法描述了幻觉声明如何通过通信拓扑传播,在对抗性扰动下加剧,以及如何在推理轮次中影响集体可靠性。为了抑制错误传播,作者引入了一种交互感知控制方法,结合了置信度加权聚合、自适应影响调节、外部声明验证和选择性隔离不可靠代理。在TruthfulQA和TriviaQA数据集上的实验表明,该方法相比未防御的多智能体推理,将幻觉减少了高达39.0%,事实准确性从0.79提高到0.87,语义一致性从0.75提高到0.84。在对抗条件下,该方法将幻觉放大限制在1.08,而无需自适应控制时为1.45,在递归交互轮次中保持稳定的集体行为。结果表明,多智能体LLM系统中的幻觉受个体模型可靠性和系统级交互动态(包括通信拓扑、置信度耦合和递归信息流)共同支配。

💡 推荐理由: 多智能体LLM系统正在被广泛应用于协同任务,但集体幻觉问题可能导致错误信息级联放大,带来严重的安全与可靠性风险。本文首次从系统动力学角度建模并提供可操作的防御方法,对构建可信赖的多智能体AI系统具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

大型语言模型(LLM)生成的文本流畅但容易产生幻觉,即输出无根据、不一致或事实错误的内容。以往研究多将幻觉视为孤立输出的静态属性,但多智能体LLM系统中,响应在智能体间交换、经过序列化阶段修订并作为后续推理的上下文,使幻觉成为受交互历史、级联深度和模型异质性影响的动态过程。本文通过跟踪跨顺序智能体交互的声明级事实不一致性,分析了多智能体LLM级联中的幻觉动态。作者使用GPT-5.3、DeepSeek-V3和LLaMA-3-70B-Instruct在10个知识领域进行了500次级联实验,收集了1250条评价响应。结果表明,在3智能体链中,更深级联使归一化幻觉分数从第一个智能体的0.422降至最终智能体的0.272,放大因子为0.644,表明净衰减;同时事实准确率从0.789降至0.769,揭示了幻觉抑制与事实保留之间的权衡。转换级分析显示,每次智能体到智能体的精炼平均减少幻觉0.072,但伴随事实一致性和响应质量的小幅稳定损失。模型级结果揭示可靠性-效率权衡:LLaMA-3-70B-Instruct达到最低幻觉分数,而GPT-5.3生成更快但幻觉率更高。领域级分析表明,幻觉随主题复杂性变化,在基于事实的科学领域分数较低,在更抽象的领域分数较高。该研究适合AI安全研究人员、LLM系统架构师和可靠性工程师阅读。

💡 推荐理由: 多智能体LLM系统部署日益增多,幻觉的动态传播尚未被充分研究,本文首次系统量化级联中的幻觉衰减与事实损失权衡,为构建更可靠的Agent协作系统提供关键实证依据。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hiroki Nakano, Takashi Koide, Daiki Chiba

本文提出 TIBlender,一个基于多智能体 LLM 的跨平台社交媒体威胁情报早期预警系统。当前网络安全威胁信号分散于多个社交媒体平台(如 X、Reddit、Telegram 和 Discord),尚未有方法能完全自动化地将这些碎片化信息整合为可操作的威胁情报(TI)报告。TIBlender 通过角色专用的 LLM 智能体,对四个平台进行实时监控,并开展多视角调查,追踪证据链以发现相关的入侵指标(IoC)。在实际部署中,TIBlender 能够在四种威胁类别(漏洞利用、恶意软件、钓鱼、僵尸网络)中提前于公共 feed 检测到新兴威胁,包括在公开漏洞库尚未收录时即发现野外利用。其提取的 IoC 大部分未被现有任何流行的威胁情报 feed 收录。定量评估进一步证实:每个平台贡献了其他平台无法提供的独特威胁信息;若排除任一平台,特定威胁类别的报告量将显著下降。与单平台基线相比,TIBlender 在相同输入条件下的 IoC 提取性能达到或超过基线水平,而完整流水线可发现更多 IoC,且大部分 IoC 不存在于任何单平台基线中。这些结果证明了跨平台社交媒体监控作为运营 TI 管道中一种有效且可扩展的早期预警层的能力。

💡 推荐理由: 该研究首次实现了跨多个社交媒体平台的自动化威胁情报整合,能够比传统 feed 更早捕获新兴威胁,对于 SOC 分析师和威胁情报团队具有重要的预警价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Farooq Shaikh

该论文提出一个名为FORGE的多智能体系统,旨在打通漏洞披露、利用优先级排序和检测规则工程三个通常孤立的研究领域。当前自动化利用生成系统仅报告二元通过/失败结果,丢弃部分进展,且不产生对其他两个领域有用的信号。FORGE通过“渐进式利用深度”作为桥梁机制,由五个专用智能体(Intel、Generator、Planner、Exploit、Detector)组成固定流水线:(1) 从CVE元数据生成针对性漏洞应用;(2) 通过LLM主评估器在四级分类(L0无证据到L3完全利用)下进行引导式多轮利用尝试;(3) 基于OpenTelemetry利用轨迹生成Sigma和Snort检测规则。深层利用产生更丰富的行为轨迹,有助于检测规则工程;而跨评分带的深度数据为优先级排序验证提供真实依据。分层知识架构跨评估累积情报,将构建和利用经验迁移到后续CVE。在CVE-GENIE数据集的603个CVE上评估,实现了67.8%的端到端L1+利用成功率,每个CVE成本1.50美元,覆盖8种语言和187种CWE类型。无论EPSS或CVSS评分高低,利用率均接近68%,表明模式级可达性与基于元数据的优先级排序正交。L2+利用导出的检测规则相比L1规则具有显著更高的跨度归一化基础性(p=0.035),93.4%的Snort规则在合成良性语料上产生零误报。

💡 推荐理由: 该研究首次将自动化利用生成、优先级排序和检测规则工程集成到一个多智能体系统中,解决了长期存在的社区隔离问题,显著提升了检测规则的生成质量和利用成功率,为安全团队提供了高效的自动化评估和检测能力。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ze Sheng, Zhicheng Chen, Qingxiao Xu, Kewen Zhu, Jeff Huang

软件漏洞是严重的安全威胁,仅2025年报告的CVE数量就接近5万个。大型语言模型在自动化漏洞检测方面展现出潜力,但仍面临三大挑战:一是生成的漏洞报告误报率高且缺乏可重复验证;二是现有的LLM方法在漏洞定位时粒度选择次优,函数级分析在上下文过多时容易遗漏漏洞,而行级分析则缺乏足够的上下文;三是难以推理具有复杂跨函数依赖和触发条件的漏洞。针对这些问题,本文提出了FuzzingBrain V2,一个基于多智能体LLM的系统,其核心贡献包括:(1) 基于Google的OSS-Fuzz实现完全自动化的漏洞分析,确保所有报告的漏洞都可通过模糊测试复现;(2) 提出Suspicious Point这一基于控制流的新型抽象,实现最优粒度的精确漏洞定位;(3) 采用逻辑驱动的层次化函数分析与双层模糊测试,在资源约束下增强函数覆盖;(4) 基于MCP的静态和动态分析工具结合上下文工程,增强复杂漏洞的推理能力。在AIxCC 2025决赛的C/C++数据集上,FuzzingBrain V2实现了90%的检测率(40个漏洞中检测到36个)。在实际部署中,该工具在12个开源项目中发现了29个零日漏洞,所有漏洞均被维护者确认并修复,其中2个已分配CVE编号。

💡 推荐理由: 该研究提出了一种可复现、低误报的自动化漏洞发现系统,结合多智能体LLM与模糊测试,显著提升了真实世界漏洞检测效率,对蓝队和安全工程师评估LLM在漏洞挖掘中的实用性具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Tian Dong, Yanjun Chen, Shoufeng Zhang, Huaien Zhang, Yunlong Lyu, Keke Lian, Dong Zhang, Shaofeng Li, Hao Chen

该论文针对AI基础设施(AI infra)中的漏洞变体问题进行了系统性的测量与检测研究。AI infra作为模型训练、部署和智能体编排的共享执行层,大量项目重复实现了相似的模型中心化工作流,导致一个仓库中公开的漏洞可能在另一个设计相关的仓库中以变体形式重现。然而,这些变体的普遍性和可检测性此前尚不明确。论文首先对688个GitHub仓库和251个公开漏洞进行了大规模测量分析,发现AI infra项目频繁共享重叠的功能和反复出现的脆弱模式,为跨仓库漏洞变体提供了具体基础。基于这一发现,作者研究如何从已知披露中自动识别此类变体,提出了INFRASCOPE——一种参考驱动的多智能体框架。该框架从已知漏洞案例中提取可迁移的漏洞语义,并利用这些语义定位和验证新仓库中的变体。在20个真实AI infra仓库上的评估中,INFRASCOPE发现了超过20个漏洞,其中包括11个已确认案例和4个已分配CVE的案例。研究贡献包括:首次对AI infra漏洞变体进行大规模测量,揭示了其普遍性;提出一种自动化检测框架,能够有效发现跨仓库漏洞变体;实验证明了方法的有效性。适合AI安全研究人员、AI平台维护者以及开源安全工具开发者阅读。

💡 推荐理由: AI基础设施中漏洞变体的普遍性威胁被首次大规模量化,INFRASCOPE提供了自动化检测手段,有助于在漏洞被利用前提前发现,降低AI供应链风险。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 10.6
Conf: 50%
👥 作者: Yunlong Lyu, Peng Chen, Fengyi Wu, Junzhe Yu, Kit Long Hon, Hao Chen

库模糊测试是保障软件供应链安全的重要手段,但大规模采用仍面临成本高昂、环境配置复杂、测试用例生成难以满足复杂API约束,以及难以区分真实库bug与测试驱动导致的崩溃等问题。现有的基于LLM的自动化工具通常作为一次性代码生成器运行,忽略了运行时反馈,限制了代码覆盖深度和报告bug的有效性。本文提出FuzzAgent,一个基于多智能体系统的进化式库模糊测试框架。其核心洞察是:有效的库模糊测试本质上是迭代的——每次测试暴露新的覆盖瓶颈和崩溃,下一次测试应基于这些信号进化,而非从头开始。FuzzAgent由一组专门智能体组成,覆盖模糊测试全生命周期,包括:环境设置、harness生成、运行监控、覆盖分析、崩溃分类等。每个决策都基于具体的运行时证据,通过多轮迭代逐步优化harness套件,以实现更深覆盖和更精确的崩溃分析。在20个真实世界的C/C++库上,FuzzAgent无需人工干预即可完成完整模糊测试流程,达到179,619个分支,分别超越OSS-Fuzz、PromptFuzz、PromeFuzz和OSS-Fuzz-Gen 45.1%、73.2%、92.1%和191.2%。此外,FuzzAgent发现了102个真实库bug,其中78个已被上游维护者确认并修复。该工作展示了多智能体协作与进化学习在自动化库模糊测试中的巨大潜力。

💡 推荐理由: FuzzAgent创新性地将多智能体系统与进化学习结合,显著提升了库模糊测试的自动化程度和有效性,对软件供应链安全防御具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yair Meidan, Omri Haller, Yulia Moshan, Shahaf David, Dudu Mimran, Yuval Elovici, Asaf Shabtai

该研究提出了SecMate,一个基于多智能体架构的网络安全故障排除虚拟客户助手(VCA)。针对传统IT支持依赖人工、效率低下且缺乏个性化的问题,SecMate通过三个维度的上下文个性化来提升故障排除的准确性和用户体验:1. 设备特异性:在客户设备上部署轻量级本地诊断工具,实时收集系统状态、配置和日志等设备级证据,使智能体能够基于实际设备状态进行诊断;2. 用户特异性:通过隐式熟练度推断(分析用户对话中的技术术语使用、问题描述详细程度等)和用户配置文件(历史故障、偏好等),调整沟通方式和故障排除策略;3. 服务特异性:利用主动上下文感知推荐器,根据当前故障场景和用户历史行为,推荐最相关的解决方案或后续步骤。 实验设计为对照研究,共144名参与者完成711次对话。参与者被随机分配到不同条件:仅LLM基线、LLM+设备证据、LLM+设备证据+逐步指导。结果表明,加入设备级证据后,正确解决率从约50%(仅LLM基线)提升至超过90%;进一步加入逐步指导(如分步操作说明)则显著提高了用户愉悦度(通过问卷调查)并减少了用户负担(如操作时间和认知负荷)。推荐器的性能通过MRR@1=0.75(平均倒数排名)证明其能有效推荐最相关步骤。此外,参与者愿意以远低于人工IT支持成本的价格(中位数约5美元)使用此类自动助手替代人工服务。 研究团队公开了完整代码库和一个丰富的带注释数据集(包含对话记录、诊断数据、用户标注等),以支持可重复研究和自适应VCA的后续开发。该工作主要面向AI for cybersecurity、人机交互和智能客服领域的研究者,展示了LLM智能体在复杂场景下结合多源上下文信息实现个性化服务的潜力。

💡 推荐理由: 展示了如何通过多智能体架构和三种上下文个性化(设备、用户、服务)显著提升LLM在网络安全故障排除中的准确率和用户体验,为安全运营中心(SOC)自动化工单处理提供了可落地的方案,同时开源了数据集促进领域发展。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xueying Zeng, Youquan Xian, Sihao Liu, Xudong Mou, Yanze Li, Lei Cui, Bo Li

随着Android应用的快速演变,传统的基于机器学习的检测模型面临概念漂移问题,且受限于浅层特征,缺乏对代码的深层语义理解和可解释性。虽然大语言模型展现出强大的语义推理能力,但直接处理海量原始代码会产生巨大的令牌开销,并且无法在复杂上下文中充分释放LLM的深层逻辑推理潜力。为了解决这些问题,本文提出了MARD,一个用于鲁棒Android恶意软件检测的多智能体框架。该框架有效弥合了LLM语义理解与传统静态分析之间的鸿沟:它将底层的确定性分析引擎视为按需执行工具,同时利用LLM编排整个决策过程。通过设计基于ReAct范式的自主多智能体交互机制,MARD构建了高度可解释的定罪证据链。此外,该方法将单个复杂APK深度分析的总成本大幅降低至0.10美元以下。实验表明,无需任何领域特定的微调,MARD的F1分数达到93.46%。在跨越长达五年的评估中,它不仅优于持续学习基线,而且表现出对概念漂移的鲁棒性和强大的跨域泛化能力。本文的贡献在于提出了一种结合LLM与静态分析的创新框架,同时解决了成本、可解释性和适应性等关键挑战。

💡 推荐理由: 本文提出了一种结合大语言模型与传统静态分析的多智能体框架,有效解决了Android恶意软件检测中的概念漂移和可解释性不足问题,且推理成本极低,对安全运营中检测模型更新和维护具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Sicong Cao, Jinxuan Xu, Le Yu, Jing Yang, Xingwei Lin, Linlin Zhu, Fu Xiao

精确识别漏洞引入提交(Vulnerability-Inducing Commit)是软件安全领域多项任务(如漏洞检测、受影响版本分析)的基础。传统的SZZ算法通过追溯代码历史来定位最早修改漏洞代码的提交,但现有方法(如定制化V-SZZ和当前最先进的LLM4SZZ)存在两个关键缺陷:锚点选择错误(即无法准确定位漏洞相关语句)以及回溯能力不足,导致实际应用中可靠性低下。本文提出了一种基于多智能体协作的SZZ算法MAS-SZZ。给定一个CVE描述及其对应的修复提交,MAS-SZZ首先利用智能体总结漏洞根因,然后采用结构化的逐步提示(step-forward prompting)策略,根据每个补丁块(patch hunk)的变更意图,精准定位漏洞相关语句。这些语句作为锚点,再由另一个智能体自动回溯仓库历史,找到首次引入漏洞的提交。实验在多个数据集和编程语言上进行,结果显示MAS-SZZ在F1分数上相比最佳现有SZZ算法提升了高达65.22%,显著优于所有基线方法。该方法为漏洞引入提交识别提供了一种自动化、高精度的解决方案,有望推动漏洞管理、软件供应链安全等领域的实践。本文适合安全工程师、软件维护团队以及从事漏洞分析的研究人员阅读。

💡 推荐理由: 漏洞引入提交的精准识别是漏洞修复、影响范围评估和供应链安全防护的关键前提。MAS-SZZ通过多智能体协作克服了传统SZZ的锚点误差和回溯不足问题,显著提升准确性,为自动化漏洞归因提供了可靠方案。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)