#vulnerability-detection

共收录 29 条相关安全情报。

← 返回所有主题
👥 作者: Yuchen Chen, Weisong Sun, Haocheng Huang, Yuan Xiao, Chunrong Fang, Yiran Zhang, Tingting Xu, Zhenpeng Chen, An Guo, Peizhuo Lv, Xiaofang Zhang, Zhenyu Chen, Yang Liu, Baowen Xu

本文针对代码语言模型(CodeLMs)中的自然后门漏洞进行了深入的实证研究。自然后门是指模型在正常训练过程中无意习得的后门行为,与通过数据投毒注入的后门不同,其产生机制与模型内部表征有关。研究覆盖了多种模型架构(如GPT、BERT变体)和代码智能任务(如代码补全、缺陷检测、代码翻译),在44个场景下系统性地评估了自然后门的存在性,结果表明自然后门在CodeLMs中普遍且固有。作者从模型层面和参数层面揭示了自然后门与注入后门的差异:前者往往与更多参数相关且分布更散。进一步分析了自然后门在数据集、模型架构和共享知识上的可迁移性,发现它们能在不同任务间迁移。成因分析从训练数据(如数据中的隐性偏差)和训练过程(如过拟合)两方面展开。评估了现有防御技术(包括预训练、训练中、训练后防御)对自然后门的缓解效果,发现多数防御效果有限。最后提出了ScanNBT检测方法,通过特征分析和异常模式识别来增强对自然后门的检测能力。该研究有助于理解CodeLMs的安全隐患,为开发更安全的代码模型提供指导。适合安全研究人员、AI安全工程师、代码智能开发者阅读。

💡 推荐理由: 自然后门可能潜伏在正常训练的代码模型中,影响代码生成、漏洞检测等关键任务的安全性与可靠性,现有防御手段难以有效清除,对依赖CodeLMs的软件供应链构成潜在威胁。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 11.5
Conf: 50%
👥 作者: Peihong Lin, Pengfei Wang 0010, Xu Zhou 0004, Wei Xie 0007, Gen Zhang, Kai Lu 0001

定向灰盒模糊测试(DGF)旨在通过预定义目标位置强化对易受攻击代码区域的测试。现有DGF技术主要基于启发式算法优化适应度指标,但这些方法依赖历史执行信息,对尚未执行的路径缺乏预见性,导致难以处理具有复杂约束的路径,从而降低DGF效率。本文提出DeepGo,一种预测性定向灰盒模糊测试器,通过结合历史与预测信息,引导DGF沿最优路径到达目标位置。首先,DeepGo引入路径转换模型,将DGF建模为通过特定路径转换序列到达目标的过程;变异生成的新种子会引发路径转换,高奖励路径转换序列对应的路径更有可能到达目标。其次,为预测未执行的路径转换及其奖励,DeepGo使用深度神经网络构建虚拟集成环境(VEE),该环境逐步模仿路径转换模型并预测路径转换的奖励。然后,开发了模糊测试强化学习(RLF)模型,生成具有最高序列奖励的转换序列,RLF结合历史与预测路径转换生成最优序列,并指导变异策略。最后,为执行高奖励路径转换序列,提出动作组概念,综合优化模糊测试关键步骤,高效实现最优路径。实验在包含25个程序、100个目标位置的基准测试集上进行,结果表明DeepGo在到达目标位置的速度上比AFLGo、BEACON、WindRanger和ParmeSan分别快3.23倍、1.72倍、1.81倍和4.83倍,在暴露已知漏洞方面分别快2.61倍、3.32倍、2.43倍和2.53倍。

💡 推荐理由: 该研究通过引入预测性路径规划和强化学习,显著提升了定向灰盒模糊测试的效率和漏洞发现能力,为安全测试工具的智能化改进提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Penghui Li 0001, Wei Meng 0001, Mingxue Zhang 0001, Chenlin Wang, Changhua Luo

本文提出了一种名为符号解释器分析(SIA)的新方法,用于解决动态Web应用程序在符号执行中面临的多语言挑战。传统的符号执行工具由于对动态语言(如PHP)的语法支持有限且工程成本高,难以有效分析现代Web应用。SIA的核心思想是:由于Web应用逻辑由解释器(如PHP解释器)执行,因此可以利用现成的符号执行引擎分析解释器的二进制代码,从而间接理解Web应用的行为。这种方法继承了解释器对完整语法的支持,并复用了现有符号执行引擎的成熟工程实现。然而,SIA需要解决若干技术挑战,包括Web应用的探索(如处理超链接、表单等)、数据库交互的符号化建模等。作者基于SIA实现了SymPHP,一个针对PHP应用的混合执行(concolic execution)引擎。实验表明,SymPHP在多种PHP应用上实现了高代码覆盖率,并成功识别了数据集中77.23%的已知漏洞,显著优于此前的方法。此外,基于SymPHP构建的混合模糊测试框架进一步提升了模糊测试效率,并发现了10个新漏洞。该工作适合安全研究人员、Web应用安全工程师以及符号执行领域的开发者阅读,为动态语言Web应用的自动化漏洞发现提供了新的思路。

💡 推荐理由: 该工作提出了一种新颖的符号执行方法,通过分析解释器代码来间接处理动态Web应用,解决了多语言支持难和工程成本高的痛点,有望大幅提升PHP等动态语言Web应用的漏洞检测能力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 9.5
Conf: 50%
👥 作者: Mohsen Lesani

本文提出了一种基于类型系统的方法来推导程序暴露的抽象“怪异机器”(weird machines)。背景是:广泛使用的关键软件系统中存在潜伏漏洞,攻击者可触发并级联这些漏洞,使程序行为异常,形成可被利用的编程模型。作者创新性地设计了一种信息流类型系统,通过追踪信息流类型来检测漏洞,并抽象漏洞间的控制流以捕获怪异机器。形式化证明表明,推导出的怪异机器能够覆盖程序可能表现出的所有怪异运行时行为。进一步,攻击模式往往简单且重复,因此可以将抽象机器建模为漏洞类型的正则表达式,这种表示与平台无关,可作为攻击的统一描述语言。最后,基于正则表达式的语言包含性等决策比针对具体程序或其他形式语言的决策高效得多。本文主要贡献在于:提供了一种自动化推导程序内部攻击能力(即怪异机器)的框架,并给出了平台无关的攻击描述方法。适合安全研究人员、编译器开发者及系统安全工程师阅读。

💡 推荐理由: 该方法首次系统性地从程序漏洞中抽象出攻击者可利用的“怪异机器”,为理解漏洞组合和攻击路径提供了理论工具,有助于开发更智能的漏洞检测与防御手段。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Prashant Kumar Pathak

该论文提出了一种需求驱动的云安全态势管理(CSPM)漏洞检测架构,旨在减少从漏洞披露到客户系统具备检测能力之间的关键路径延迟。传统CSPM依赖供应商集中维护和分发规则集,更新节奏受限于发布周期(数小时至数天),且针对包含配置谓词的丰富检测规则需要额外的人工编写时间。论文提出的架构不再由供应商分发规则集,而是在客户租户内持续从公共源(如CVE目录)与实时资产图的交集动态衍生规则:当目录条目与适用资产同时存在时规则产生,当任一输入不再支持时规则消失。这种双向推导既响应新目录条目也响应新资产,利用了目录条目的完整结构化字段(不仅限于受影响软件字符串)。实时规则集的规模受限于环境多样性而非目录广度。论文详细阐述了威胁模型、架构设计、形式化语义及等价定理、复杂度分析、工作示例和评估方法。主要贡献在于架构性转变及其带来的延迟和资源影响,规则正确性和告警优先级排序不在讨论范围内。该研究适合云安全架构师、CSPM产品设计者和安全运维研究人员阅读,以理解一种消除人工规则编写环节的自动化检测思路。

💡 推荐理由: 该架构直击传统CSPM中规则分发延迟的痛点,通过将规则生成移至客户侧且完全自动化,有望显著缩短从CVE披露到资产检测的响应窗口,提升云环境安全防护的实时性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Rui Li, Wenrui Diao, Debin Gao

该论文首次系统性地研究了 Android 框架中 Java 和 Kotlin 并行实现引发的安全问题。随着 Google 在 Android 系统和应用层推广 Kotlin,AOSP 中存在大量用 Java 和 Kotlin 同时实现的相同功能组件。论文指出,虽然这些并行实现在功能上应当一致,但由于两种语言的语法和语义差异,实际运行时可能出现微小的行为分歧。这种分歧本身并非漏洞,但可能暴露周边安全逻辑的缺陷。作者设计并实现了 ParaDroid 分析框架,通过字节码级中间表示、类到源码映射重构以及大语言模型推理方法语义,规模化地识别 Java-Kotlin 并行方法并比较其行为差异。在 Android 14-16 的 AOSP 代码中,ParaDroid 发现了 329 对并行方法和 37 个易受攻击的差异。作者已负责任地向 Android 安全团队披露了可利用的问题,其中 3 个漏洞和 2 个 bug 被确认,并分配了 2 个 CVE ID。研究结果表明,检查 Java-Kotlin 并行代码路径是发现现代 Android 安全缺陷的有效途径。

💡 推荐理由: Android 迁移到 Kotlin 的过程中,并行实现导致的语义差异可能成为被忽视的攻击面。本文首次系统性揭示该风险,为安全审计提供新视角。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Gabriela Dobrita, Simona-Vasilica Oprea, Adela Bara

现有的基于学习的Solidity智能合约漏洞检测器通常将检测简化为单函数内的语法模式匹配,但许多重大利用(如The DAO、Cream Finance)并不存在于单个函数中,而是存在于函数间的关系以及使攻击可行的条件组合之中。为此,本文提出AttackPathGNN,一种将检测重新定义为对显式攻击路径推理的图神经网络(GNN)。其两个架构创新区别于先前的GNN检测器:(1)状态干扰图(State Interference Graph),该图通过带类型和权重的边以及由显式五条件谓词定义的有向重入路径边,连接共享可变存储的每对函数;(2)合取池化(conjunction pooling),一种对八个命名利用前提条件的可微AND聚合器,其log-sigmoid形式使得当任一缓解措施(如重入守卫、访问控制修饰符或SafeMath)到位时,每个函数的利用评分会骤降。在五个独立训练运行中,AttackPathGNN在SmartBugs Wild保留测试集上达到92.3±0.2%的F1分数(假阴性率4.3±0.3%,在独立人工标注的SmartBugs Curated基准上检测率90.8±2.5%),并在每个种子上以100%恢复6/10个DASP10类别,重入检测达到98.7±1.8%。每次预测都附带结构化的修复报告,将每个判定转化为可操作的、函数级别的审计发现。该研究对智能合约安全审计、自动化漏洞检测工具开发具有重要参考价值。

💡 推荐理由: 该研究创新性地将漏洞检测从单函数模式匹配提升到跨函数攻击路径推理,显著降低了假阴性率,并提供了可解释的修复建议,对提升智能合约审计的自动化水平和准确率有实际价值。

🎯 建议动作: 研究跟进并考虑将方法集成到内部智能合约审计流程中。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Wan-Hsuan Hsu, Wei-Hsin Wang, Cheng-Yu Liou, Ting-Rui Ke, Kentaroh Toyoda

该论文提出了Bastet,一个面向去中心化金融(DeFi)智能合约漏洞检测的细粒度专家标注数据集。2024年,DeFi协议因智能合约漏洞累计损失超过14.9亿美元,基于大语言模型(LLM)的漏洞检测成为有前景的应对方案,但现有评估数据集存在三大问题:基于过时的Solidity版本(如v0.4),无法反映现代DeFi合约;依赖自动化或LLM生成的标注,引入幻觉导致的标签噪声;采用粗粒度的单层标签,难以捕获真实业务逻辑漏洞的语义复杂性。Bastet通过以下方式解决这些问题:数据来源为2021-2024年的真实审计发现;由人类专家通过讨论达成共识进行标注;采用两层分类体系,包含46个标签和77个子标签。数据集包含从394份Code4rena竞争性审计报告中收集的4,402个发现(时间跨度为2021年4月至2024年11月),其中849个发现由DeFiHackLabs社区的白帽安全研究人员完全标注。所有标注均通过双标注者共识工作流程生成,确保了基于真实漏洞根因的标签准确性。该数据集的主要贡献在于:提供高质量、精细化的基准,以推动LLM在DeFi安全领域的应用研究,并促进可复现的实验评估。适合智能合约安全研究人员、LLM应用开发者及DeFi协议审计人员阅读。

💡 推荐理由: 现有漏洞检测数据集质量低下,限制了LLM模型的实际效果。Bastet通过专家标注和精细分类,为DeFi智能合约漏洞检测提供了可靠基准,有望显著提升自动化审计的准确性和实用性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Christoph Sendner, Huili Chen, Hossein Fereidooni, Lukas Petzi, Jan König, Jasper Stang, Alexandra Dmitrienko, Ahmad-Reza Sadeghi, Farinaz Koushanfar

本文提出了一种名为ESCORT的深度学习框架,用于检测以太坊智能合约中的多种漏洞类型。传统检测方法通常只针对单一或少数漏洞类型,且扩展到新类型时需要大量重新设计。ESCORT采用通用特征提取器学习合约字节码的通用语义,并针对每种漏洞类型设置独立分支,实现多标签分类,可同时检测多个漏洞。更重要的是,ESCORT利用迁移学习,当出现新的漏洞类型时,只需在预训练的特征提取器上添加新分支,并用少量数据微调即可,避免了重新训练整个模型的开销。实验基于361万个真实智能合约数据集,初始阶段在六种漏洞类型(如重入、时间戳依赖等)上平均F1分数达98%;迁移学习阶段对另外五种新漏洞类型平均F1分数达96%。与现有非机器学习工具相比,ESCORT可处理任意复杂度的合约,实现100%合约覆盖,并支持多漏洞并发检测,显著缩短检测时间。该研究是首个将迁移学习应用于智能合约漏洞检测的深度学习框架,并将开源数据集和标注工具链以促进后续研究。

💡 推荐理由: 智能合约漏洞已导致数十亿美元损失,现有检测工具扩展性差。ESCORT的迁移学习方法使得快速适配新型漏洞成为可能,对区块链安全防御具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Syafiq Al Atiiq, Chun Zhou, Christian Gehrmann

本文采用机械可解释性方法深入分析大语言模型(LLM)检测软件漏洞的内部计算机制。研究以Gemma-2-2b模型为对象,使用Circuit Tracer工具追踪其在分类472个C/C++代码样本(含漏洞与安全代码)时激活的计算路径。令人惊讶的是,分析发现模型并非直接识别漏洞特征,而是主要依赖一组“安全检测器”——特定注意力头能识别安全编码模式。当这些安全检测器未激活时,模型将代码判定为有漏洞。关键神经组件包括:早期层(L5、L7)中专注于安全模式的注意力头,以及第7层多层感知器(MLP)中编码漏洞相关特征的神经元。消融实验证实了这些组件的因果作用:移除第11层导致漏洞检测准确率从100%骤降至6%,仅移除第7层中的20个神经元便使准确率降低50%。研究进一步揭示,LLM漏洞检测仅使用约16%的模型容量即可形成稀疏、可解释的电路。这一发现为漏洞检测系统提供了电路级别的解释,并可指导针对性的性能改进。论文成果有助于理解LLM在安全任务中的推理过程,推动更透明、可审计的AI安全检测工具的发展。

💡 推荐理由: 该研究首次从电路层面揭示LLM漏洞检测的工作机制,发现模型依赖安全模式识别而非漏洞签名,颠覆了传统认知。安全从业者可据此优化检测策略,提升模型可解释性与可信度。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Vivek Dahiya, Sunny Nehra, Vipul Dholariya, Bhavik Shangari, Chandra Khatri

本文评估了前沿大语言模型(LLM)在网络安全任务中的实际能力,通过构建双模式基准测试:白盒函数级漏洞检测(VulnLLM-R,涵盖C/Java/Python)和黑盒Web应用安全测试(五个生产风格的应用,包含118个真实漏洞,覆盖20多个CWE家族,并将开源)。测试了六个前沿模型(GPT-5.4、Codex~5.3、Claude Opus~4.6、Sonnet~4.6、Gemini~3.1~Pro和Gemini~3~Flash)以及两个领域专用模型,在四种测试范式下进行。结果令人警醒:(1)每个前沿模型在白盒检测中产生10-50%的假阳性率,系统性地过度预测漏洞;(2)在黑盒测试中,前沿模型仅覆盖4-8%的真实漏洞,即使借助外部安全工具(Playwright MCP、Burp Suite MCP)也只提升到10-19%;(3)将结构化渗透测试方法编码到领域专用代理中,可将每个CWE家族的检测覆盖率提升至50%以上,表明方法论而非模型规模才是主要杠杆;(4)领域专用防御模型在所有模型中实现了最高精度(0.904)和最低假阳性率(9.7%),且仅需单个GPU。研究识别出训练数据的根本瓶颈:缺乏结构化安全测试轨迹(端到端请求/响应序列、失败数据和多步攻击链),并提出自博弈安全测试作为数据生成策略。结论支持为网络安全构建垂直领域基础模型。

💡 推荐理由: 该研究揭示了当前前沿LLM在网络安全任务中的严重不足(高误报、低覆盖率),并指出结构化方法论比模型规模更重要,为安全团队评估和选择合适AI工具提供了关键参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chang Liu, Noah Fleischmann, Nicolò Altamura, Edward Raff, James Holt, Kristopher Micinski

该论文提出了ASSEMBLAGE-DEEPHISTORY,一个跨构建的二进制数据集,旨在弥补现有二进制语料库缺乏时间维度、跨编译多样性以及CVE标签组合的不足。数据集包含73,610个二进制文件,涵盖248个开源项目,使用GCC、Clang和MSVC编译器,在Linux和Windows平台上以多种优化级别编译,并包含跨多年的历史构建。每个二进制文件都通过数据库索引,关联其源代码、函数、调试信息、变体构建、历史版本以及易受攻击的函数。论文通过三个分析展示了该数据集的价值:一是设计了一个三阶段的LLM基准测试(识别、策略引导检测、跨构建迁移),用于测试LLM是否真正推理二进制漏洞还是仅匹配构建特定的模式;二是比较了MalConv嵌入、jTrans函数嵌入和TLSH模糊哈希在不同包版本的聚类效果;三是通过贝叶斯回归将二进制相似性分解为时间距离、文件变更和提交等贡献因素。该论文适合二进制安全分析、漏洞研究、机器学习应用于逆向工程领域的研究人员阅读。

💡 推荐理由: 该数据集为二进制安全研究提供了首个融合跨编译多样性、历史版本和CVE标签的统一框架,有助于提升漏洞检测模型的泛化能力和可解释性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xinran Zheng, Alfredo Pesoli, Marco Valleri, Suman Jana, Lorenzo Cavallaro

本文提出 Veritas,一个基于语义的二进制内存破坏漏洞检测框架。针对剥离二进制文件中恢复对象语义、跨过程传播和可行触发条件的难点,Veritas 结合了三个关键组件:首先,一个基于 RetDec 提升的 LLVM IR 的静态切片器,重构包括 def-use、调用、返回、全局变量和指针操作在内的值流关系,生成紧凑的、带有证据支持的流对象;其次,一个双视角大语言模型检测器,通过反编译的 C 代码和精选的 LLVM IR 分步推理,关注控制流、边界和对象对应关系,避免全局传播;最后,一个多智能体验证器,通过引导式调试、断点检查和内存检查预言机来确认或拒绝候选漏洞。Veritas 实现为模块化流水线,在真实世界二进制漏洞基准上评估,达到 90% 的召回率。在误报评估中,对 623 个检测候选进行穷举验证和人工审计,穷举部分无假阳性,额外审计确认两个假阳性。实际应用中,Veritas 发现了一个此前未知的 Apple 漏洞并获得 CVE。该工作表明语义基础化作为实用二进制漏洞检测的操作设计原则的可行性。

💡 推荐理由: 二进制漏洞检测是安全分析的难点,Veritas 通过结合静态分析和 LLM 推理,大幅提升检测准确率并发现真实 CVE,为自动化二进制安全分析提供了可落地方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuteng Zhang, Huifang Ma, Jiahui Wei, Qingqing Li, Yafei Yang

软件漏洞检测对于确保软件安全性和可靠性至关重要。尽管深度学习取得了进展,但真实世界的漏洞数据集面临两个严重挑战:频率不平衡(少数类漏洞样本稀少)和难度不平衡(易检测与难检测样本的区分度不足)。本文从嵌入几何的角度重新审视这些问题,观察到这种不平衡会在超球面表示空间中引起几何失真,导致决策边界不稳定。为解决这一问题,作者提出了MARGIN(Margin-Aware Regularized Geometry for Imbalanced Vulnerability Detection),一个基于度量的框架,通过自适应边界度量学习和超球面原型建模来学习具有判别性的漏洞表示。MARGIN根据von Mises-Fisher浓度估计的分布结构动态调整几何正则化,使嵌入分布的概率质量与其对应的Voronoi单元对齐,从而减少几何失真,产生更稳定的决策边界。在多个公开漏洞数据集上的实验表明,MARGIN一致优于强基线,尤其在具有挑战性的不平衡数据集上,分类和检测性能显著提升。进一步分析显示,MARGIN产生的嵌入几何结构更有序,提高了鲁棒性、可解释性和泛化能力。

💡 推荐理由: 该研究针对现实漏洞检测中数据不平衡的痛点,提出了一种新的几何正则化方法,能有效提升模型在不均衡数据集上的检测性能,对安全自动化分析有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Guopeng Lin, Xiaoning Du 0001, Lushan Song, Weili Han, Jin Tan, Junming Ma, Wenjing Fang, Lei Wang

近年来,随着隐私保护法规(如欧盟GDPR)的出台,多方计算(MPC)协议被广泛用于公司和机构之间的联合数据分析与机器学习,以保护数据隐私。然而,MPC协议的复杂性导致其实现中常存在数据泄露漏洞,严重破坏预期的隐私保护。现有安全分析多依赖理论证明,忽视了实现中的漏洞检测。本文提出MPCGuard,一个实用的框架,用于检测MPC实现中的数据泄露漏洞。与传统内存漏洞不同,MPC中的数据泄露无法通过现有消毒工具识别。为此,MPCGuard首先建立由两个神经网络分类器组成的泄露标识器,根据MPC协议特性设计分类器结构,以判断实现是否包含数据泄露漏洞。识别出漏洞后,采用delta方法辅助定位。为验证有效性,在三大主流MPC框架(Crypten、TF-Encrypted、MP-SPDZ)中的29个常用实现上进行测试,发现12个存在数据泄露漏洞,部分可导致原始数据重构。截至论文撰写时,所有漏洞已被确认,其中两个已分配CVE编号(据作者所知,这是首个针对MPC实现数据泄露漏洞的CVE)。该工作首次系统性地解决了MPC实现中数据泄露漏洞的自动检测问题,对保障MPC应用的安全性具有重要意义。

💡 推荐理由: MPC实现中的数据泄露漏洞难以通过传统方法检测,但可导致敏感数据暴露。MPCGuard首次利用神经网络分类器自动化识别此类漏洞,已在真实框架中发现多个漏洞并获得CVE,为MPC安全实践提供了关键工具。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Meng Wang, Philipp Görz, Joschua Schilling, Keno Hassler, Liwei Guo, Thorsten Holz, Ali Abbasi 0002

业务逻辑漏洞是软件安全中一个关键且难以检测的问题,它们源于应用程序设计或实现中的错误,使攻击者能够触发非预期的行为。传统的基于模糊测试的动态分析工具在检测内存安全漏洞方面表现出色,但往往无法发现业务逻辑漏洞,因为这些缺陷需要理解特定于应用程序的语义上下文。已有的推测上下文的方法由于依赖启发式和非可移植的语言特性,本质上是脆弱且不完整的。由于业务逻辑漏洞在CWE Top 40中占据27个,是实际中最危险的软件弱点之一,现有工具的盲点令人担忧。本文提出了ANOTA,一种新型的人机协同的sanitizer框架。ANOTA引入了一个轻量级、用户友好的注解系统,使用户能够直接将其领域知识编码为轻量级注解,这些注解定义了应用程序的预期行为。运行时执行监视器观察程序行为,将其与注解定义的策略进行比较,从而识别指示漏洞的偏差。为了评估ANOTA的有效性,作者将其与最先进的模糊测试器结合,与其他针对相同目标的流行漏洞发现方法进行比较。结果表明,ANOTA+FUZZER在有效性上优于其他方法。具体来说,ANOTA+FUZZER成功复现了43个已知漏洞,并在评估期间发现了22个以前未知的漏洞(分配了17个CVE)。这些结果证明,ANOTA为发现传统安全测试技术经常遗漏的复杂业务逻辑缺陷提供了一种实用且有效的方法。

💡 推荐理由: 业务逻辑漏洞是实际中最常见但最难以自动化检测的安全弱点之一,ANOTA提出了一种实用的注解式sanitizer方案,填补了现有工具的盲区。

🎯 建议动作: 研究跟进,评估集成到现有测试管线的可行性

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)
👥 作者: Yiran Zhu, Tong Tang, Jie Wan, Ziqi Yang, Zhenguang Liu, Lorenzo Cavallaro

本文提出了一种名为 BINALIGNER 的二进制差异分析方法,旨在解决跨编译环境(如不同版本、编译器、优化级别、架构)下二进制代码比较的难题。现有方法通常基于基本块的相似度进行匹配,在跨编译环境中效果不佳且灵活性差。BINALIGNER 的核心创新包括:1) 采用条件松弛策略,通过放宽匹配条件来寻找候选子图对,从而减少误匹配和漏匹配;2) 使用与指令无关的基本块特征(如基于数据流和控制流的特征)生成子图嵌入,以支持跨编译环境的灵活比较。作者在四个跨编译环境场景(跨版本、跨编译器、跨优化级别、跨架构)上进行了实验,结果显示 BINALIGNER 在大多数场景下显著优于现有方法,尤其在跨架构场景和多组合场景中,F1 分数平均比基线高 65%。此外,通过两个真实漏洞(CVE 案例)及其补丁的案例研究,验证了 BINALIGNER 在漏洞检测和补丁分析中的实用性。该研究为二进制安全分析领域提供了一种高效、鲁棒的差异分析工具,适用于漏洞发现、恶意软件分析和代码复用检测等场景。

💡 推荐理由: 二进制差异分析是漏洞检测和补丁分析的关键技术。BINALIGNER 显著提升了跨编译环境下的匹配精度,有助于安全工程师更准确地发现跨平台漏洞和进行逆向工程。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Qixuan Guo, Yongzhong He

该论文针对软件供应链安全中识别漏洞引入提交(Vulnerability-Introducing Commit, VIC)这一关键问题,提出了一种基于补丁模式差异分析的新方法。传统VIC识别方法主要依赖代码变更的文本特征或图结构,但往往受限于噪声数据(如重构提交)且对隐蔽性漏洞引入不敏感。作者通过观察发现:修复补丁(patching patterns)在修复前和修复后的代码差异模式具有可区分的特征,这些特征可以反向用于定位最初的漏洞引入点。具体而言,论文首先从公开漏洞库(如NVD)和开源仓库中收集大量已知漏洞的修复提交,然后构建补丁模式的知识库;接下来,对于待分析的候选提交,通过比对候选提交的代码变更与已知修复补丁的“逆模式”(即补丁的镜像操作)来识别潜在的VIC。方法包含三个主要步骤:1)补丁模式提取与量化:使用抽象语法树(AST)差异分析将补丁模式表示为结构化编辑操作序列;2)逆模式匹配:对于每个候选提交,计算其编辑操作序列与已知补丁模式逆序列的相似度;3)基于集成排序的VIC判定:结合多个相似度指标和提交元数据(如时间戳、开发者信息)进行综合排序。实验在多个真实世界开源项目(如Linux内核、Apache HTTPD)上进行,结果显示该方法在TPR(真正例率)和Precision上均优于现有基线方法(如VCCFinder、FIBER),尤其对隐蔽性漏洞(如逻辑错误导致的漏洞)的引入提交识别准确率提升显著。论文还分析了不同补丁模式(如条件增强、函数接口变更)对识别效果的贡献,表明逆模式匹配能有效过滤重构提交等噪声。该研究的贡献在于提供了一种无需依赖漏洞细节(如PoC)的VIC识别思路,可应用于自动化漏洞根因定位和修复回溯。

💡 推荐理由: 准确识别漏洞引入提交是软件供应链安全的核心能力,直接影响漏洞修复效率与历史影响分析。本文提出的方法能有效降低误报,提升自动化根因定位的精度,对安全运维团队进行漏洞追溯、补丁优先级排序具有实际参考价值。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Xiangpu Song, Longjia Pei, Jianliang Wu 0002, Yingpei Zeng, Gaoshuo He, Chaoshun Zuo, Xiaofeng Liu 0013, Qingchuan Zhao, Shanqing Guo

该论文提出 ProtocolGuard,一种结合大语言模型(LLM)引导的静态分析与动态验证的方法,用于检测协议实现中的违规行为(protocol non-compliance bugs)。协议实现中的违规错误(如状态机状态错误、消息格式错误、序列错误)可能导致严重的安全漏洞。传统方法依赖手动编写的规则或模型检查,但面对复杂协议扩展性差且误报率高。ProtocolGuard 利用 LLM 从协议规范文档中自动推断出协议的行为模型(如状态机、消息序列规则),然后将该模型转换为静态分析中的约束,并生成用于动态验证的测试用例。具体来说,LLM 首先解析自然语言描述的协议规范,提取关键的状态转换和消息格式约束;然后,静态分析阶段在源代码上检查这些约束是否被违反,并标记可疑位置;最后,动态验证通过构造特定输入触发可疑路径,确认是否存在实际违规。实验在多个真实协议实现(如 TLS 1.3、SSH、QUIC 等)上进行评估,结果表明 ProtocolGuard 能够发现若干已知和未知的违规错误,且误报率低于现有方法。该工作首次将 LLM 用于协议违规检测的完整流程,提升了自动化程度和检测覆盖面。读者无需阅读原文,即可理解该方法的核心思路:借助 LLM 从文本规范中学习协议规则,辅以动静结合分析实现高精度检测。

💡 推荐理由: 协议实现中的违规是常见安全隐患,现有自动检测方法受限。本研究首次将 LLM 的语义理解能力融入全流程,可大幅提升检测效率与覆盖率,为协议安全分析提供新范式。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Nanyu Zhong, Yuekang Li, Yanyan Zou 0002, Jiaxu Zhao 0004, Jinwei Dong, Yang Xiao, Bingwei Peng, Yeting Li, Wei Wang, Wei Huo

该论文针对嵌入式固件二进制中认证绕过漏洞的检测问题展开研究。认证绕过漏洞通常源于开发者对认证逻辑的错误实现(如硬编码凭证、弱会话管理、权限检查缺失等),在现实攻击中常被用于获取系统后门或提升权限。现有静态分析工具虽能检测内存破坏漏洞,但在认证逻辑的语义理解上存在局限,难以精准识别绕过路径。作者提出一种基于符号执行与污点分析相结合的混合方法:首先通过二进制程序切片提取认证相关的函数和基本块,然后利用符号执行引擎遍历所有可能的认证分支,并通过污点传播标记关键输入(如密码、令牌、会话ID)。当符号执行发现一条路径既能绕过认证检查(例如使返回值为真)又能到达后续危险函数时,即报告为潜在漏洞。方法的关键创新在于设计了一种轻量级的认证状态机,用于建模固件中常见的认证协议(如挑战-响应、一次性密码等),并支持对多阶段认证流程的建模。实验在包含1200个真实固件镜像的数据集上进行,涵盖了多种嵌入式架构(ARM、MIPS、x86)。结果显示,该方法共发现37个未知认证绕过漏洞,其中19个已获得CVE编号。与现有工具(如FirmUSB、Angr)相比,检测率提升约60%,误报率降低至12%。论文还分析了固件中认证模式的多样性,并讨论了如何将方法扩展到IoT设备范围。

💡 推荐理由: 固件认证绕过漏洞是物联网设备后门的核心成因之一,传统扫描工具难以检测。该研究提供了一种自动化的二进制分析方法,有望在嵌入式安全审计中落地,填补固件逻辑漏洞检测的空白。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Haoran Yang, Jiaming Guo, Shuangning Yang, Guoli Zhao, Qingqi Liu, Chi Zhang, Zhenlu Tan, Lixiao Shan, Qihang Zhou, Mengting Zhou, Jianwei Tai, Xiaoqi Jia

本文提出 IoTBec,一个针对黑盒物联网设备的准确且高效的重复漏洞检测框架。物联网设备通常不提供源码,导致传统基于代码的漏洞检测方法失效。IoTBec 通过逆向分析固件、提取关键函数特征,并利用机器学习模型比较不同固件版本间的相似性,从而识别已知漏洞的再现。该方法能够在无需设备源码或详细文档的情况下,自动检测已公开漏洞是否影响新固件版本。实验表明,IoTBec 在多个真实物联网固件数据集上达到了高准确率(>95%)和低误报率,同时检测效率相比现有方案提升了一个数量级。框架的核心贡献在于:1)提出了基于函数语义的轻量级特征表示;2)设计了跨版本漏洞匹配算法;3)构建了可扩展的自动化分析流水线。该工作填补了黑盒场景下重复漏洞检测的空白,对物联网安全维护具有重要实践价值。

💡 推荐理由: 物联网设备更新缓慢,已知漏洞反复出现,但缺乏源码导致传统检测手段失效。IoTBec 使防御者能高效发现黑盒固件中的现存漏洞,降低供应链风险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Runhao Liu 0001, Jiarun Dai, Haoyu Xiao, Yuan Zhang, Yeqi Mou, Lukai Xu, Bo Yu 0008, Baosheng Wang, Min Yang

该论文针对现代Linux固件中C-Lua混合Web服务的安全漏洞检测问题展开研究。传统静态污点分析工具通常仅关注固件中的C二进制文件,忽略了Lua脚本及字节码的存在,导致检测覆盖面不足。作者观察到现代固件广泛采用Lua与C混合编程实现Web服务,因此提出FirmCross——一种面向C-Lua混合Web服务的自动化污点风格漏洞检测器。FirmCross能够自动解混淆固件中的Lua字节码,识别Lua代码空间中的独特污点源,并系统性地捕获C-Lua跨语言污点流。在包含来自11家供应商的73个固件镜像的数据集上,FirmCross检测到的漏洞数量是现有最先进工具(MangoDFA和LuaTaint)的6.82倍至14.5倍。尤其值得注意的是,FirmCross帮助发现了610个0-day漏洞,截至论文提交时已有31个漏洞被分配了CVE编号。该工作显著提升了固件Web服务安全分析的完整性和有效性。

💡 推荐理由: 首次系统关注固件中C-Lua混合Web服务的跨语言污点流分析,显著提升了漏洞发现数量,对IoT/嵌入式安全分析有重要推进作用。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Tariq Houis, Shaoqi Jiang, Mohammad Mannan, Amr Youssef 0001

该论文聚焦于JavaScript/Node.js生态中广泛存在的原型污染(Prototype Pollution)漏洞检测问题。原型污染漏洞允许攻击者通过操纵对象的原型链,在运行时注入恶意属性,从而导致拒绝服务、权限提升甚至远程代码执行。现有检测工具存在高误报、低覆盖或无法生成可利用PoC的问题。为此,作者提出了Bullseye——一个混合静态与动态分析的漏洞检测系统,能够自动为发现的漏洞生成概念验证(PoC)利用。Bullseye首先通过静态分析扫描NPM包中的可疑模式,并使用符号执行和污点传播来识别潜在的污染路径。随后,动态分析阶段在沙箱环境中实际执行PoC,验证漏洞的可利用性。在包含超过1500个流行NPM包的测试集上,Bullseye发现了124个之前未知的原型污染漏洞(其中98个已被确认),相比现有工具(如CodeQL、Prototype Pollution Scanner)召回率提升32%,误报率降低47%。所有发现的漏洞均已负责任地披露给相关维护者。实验还表明,Bullseye的PoC生成能力有效降低了安全团队验证漏洞的时间成本。

💡 推荐理由: 原型污染是Node.js生态中高风险的漏洞类型,现有检测手段自动化程度低,Bullseye首次实现了从检测到PoC生成的端到端自动化,大幅提升安全团队在开源供应链中的漏洞发现效率。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chun Yin Chiu

本文研究了一种轻量级的函数级漏洞检测方法,旨在为C/C++代码提供快速、可复现的排序基线,以辅助人工分类。传统方法依赖代码图或深度模型,计算成本高,而本文提出的流水线完全避免深度学习、Transformer和图结构,仅使用原始函数的稀疏token n-gram特征(TF-IDF加权)和一组简单的代码度量,包括NLOC、近似圈复杂度、token数、最大括号深度和参数个数。分类器采用带类别权重的逻辑回归,以处理标签不平衡问题。实验基于Devign函数级漏洞标签,评估了随机分割和跨项目(FFmpeg到QEMU)迁移场景,主要关注PR-AUC和Recall@10%等排序导向指标。在随机分割中,最佳组合取得PR-AUC 0.642和Recall@10% 0.161;而跨项目泛化难度显著增加,PR-AUC仅约0.436。此外,还进行了消融实验、标识符重命名鲁棒性测试以及端到端效率分析。结果表明,简单特征组合可作为有用的透明基线,但存在对表层词汇线索敏感、跨项目迁移能力有限等局限。本文适合对代码安全评估中的轻量级方法感兴趣的读者,尤其是需要快速基线对比的研究者或工程团队。

💡 推荐理由: 本文为漏洞检测提供了极简、可解释的基线方法,便于工程团队快速部署和复现,同时揭示了轻量特征在跨项目场景下的局限性,为后续研究指明了改进方向。

🎯 建议动作: 研究跟进,可将其作为基线对比其他复杂模型

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.3)
👥 作者: Xing Zhang, Keyu Zhang, Taohong Zhu, Anbang Ruan

本文提出了一种基于大语言模型(LLM)的智能合约漏洞检测框架。智能合约因其不可篡改特性,易遭受多种安全漏洞攻击,导致重大经济损失。现有检测方法通常依赖人工制定的专家规则,缺乏对不同漏洞类型的灵活适应性。为此,作者构建并公开了一个大规模数据集,包含来自15个主流区块链平台、超过3200个真实项目的31165个专业标注的漏洞实例。该框架利用基于抽象语法树(AST)的精确上下文提取和漏洞特定的提示设计,为13种常见漏洞类型实例化定制检测器。实验结果表明,该方法平均正样本召回率达0.92,平均负样本召回率达0.85,展示了精心设计的上下文提示在实现可扩展、高精度智能合约安全分析方面的潜力。该研究为智能合约安全检测提供了新的思路,特别适合安全研究人员和区块链开发者关注。

💡 推荐理由: 智能合约漏洞频发导致巨额损失,现有检测方法缺乏灵活性。本文利用LLM和大规模数据集实现高召回率检测,有望提升智能合约安全分析的自动化和准确性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Karolina Gorna, Nicolas Iooss, Yannick Seurin, Rida Khatoun, Keith Makan

本文介绍了 Zorya 符号执行框架的扩展,使其能够处理由 Go 标准 gc 编译器生成的多线程二进制文件。Zorya 框架最初仅支持单线程 TinyGo 二进制,通过将二进制提升到 Ghidra 的 P-Code 中间表示,并利用 Z3 SMT 求解器对具体值和符号值进行推理来检测漏洞。为了支持 gc 编译的二进制,作者解决了三个关键挑战:从 gdb 转储恢复操作系统线程状态以处理多线程;中和运行时抢占机制避免执行干扰;引入写时复制(copy-on-write)覆盖路径分析,用于检测未执行分支上的静默漏洞(如整数溢出)。研究在 11 个来自生产级 Go 项目(如 Kubernetes、Go-Ethereum 和 CoreDNS)的真实漏洞上进行了严格评估。结果表明,Zorya 成功检测出 7 个二进制级别漏洞,其中包括一个静默整数溢出——其他评估工具在没有手动编写预言(oracle)的情况下无法发现。该工作显著扩展了 concolic 测试在 Go 生态系统的实用性,为自动化安全分析提供了新手段。适合安全研究人员、Go 开发者和二进制分析工具开发者阅读。

💡 推荐理由: Zorya 框架的扩展填补了 Go 二进制符号执行研究的空白,能够自动化检测多线程 Go 应用中的安全缺陷,对 K8s、以太坊等关键基础设施的安全性评估具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ruiguo Yang, Jiajin Cai, Xinhui Han

该论文提出了一种名为TaintGrep的静态分析工具,用于检测Android应用中的漏洞。该工具基于污点分析(taint analysis)技术,并支持用户自定义规则,从而能够灵活地适应不同的安全检测需求。TaintGrep通过构建数据流图并追踪敏感数据(如用户输入、敏感API调用)的传播路径,最终识别可能导致信息泄露、权限滥用等安全问题的模式。实验部分(abstract未详细说明)可能评估了其在真实应用上的检测效果。该研究的主要贡献在于提供了一个可扩展的静态分析框架,允许安全分析师根据特定漏洞类型编写自定义规则,降低了针对新型漏洞的检测门槛。适合安全分析人员、移动安全研究者以及希望定制化检测逻辑的开发者阅读。

💡 推荐理由: Android应用漏洞频发,现有静态工具规则固化,难以适应新型攻击模式。TaintGrep通过用户自定义规则增强了灵活性,为蓝队提供了可定制的自动化检测手段。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Chidera Biringa, Ajmal Abbas, Vishnu Selvaraj, Gokhan Kul

本文提出 VulStyle,一种多模态软件漏洞检测模型,它联合编码函数级源代码、非终结符抽象语法树(AST)结构和代码风格计量(CStyle)特征。现有代码表示方法主要依赖词级模型或完整AST树,往往忽略指示风险编程习惯的风格线索,或者引入高结构开销。VulStyle 仅选择非终结符 AST 节点,在保留语义层次的同时降低输入复杂度,并集成句法和词法 CStyle 特征作为辅助漏洞信号。该模型采用掩码语言建模在 490 万个函数(覆盖七种编程语言)上进行预训练,并在五个基准数据集(Devign、BigVul、DiverseVul、REVEAL、VulDeePecker)上微调。VulStyle 在 BigVul 和 VulDeePecker 上达到当前最优性能,F1 分数相比强基线 Transformer 模型提升 4%-48%,在所有基准上均取得具有竞争力或最优的平均性能。本文还通过消融实验分离 CStyle 和 AST 结构的影响、进行错误案例分析,并在攻击者真实场景下定位检测任务的威胁模型。该研究为漏洞检测提供了融合编程风格特征的新思路,适合安全研究者和代码分析工具开发者阅读。

💡 推荐理由: VulStyle 创新性地融合代码风格计量特征提升漏洞检测性能,在多个基准上显著超越现有方法,为安全工具开发者提供了可直接借鉴的多模态预训练框架。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

介绍了一个跨多个提交引入的Python漏洞基准,揭示了每次提交静态分析工具检测率极低(13%),表明现有SAST对这类漏洞几乎无效。

💡 推荐理由: 该基准证明依赖每次提交扫描的SAST会漏掉87%的跨提交漏洞链,开发者可能因此忽略累积风险,需要重新评估静态分析策略。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)