#vulnerability-assessment 主题 - Cyber Security Daily Radar

👥 作者: Dimitra Papatsaroucha, Stavroula Psaroudaki, Eleftheria Vassilaki, Konstantina Pityanou, Evangelos K. Markakis

本文是一篇关于网络安全中人类脆弱性评估（HVA）的系统性文献综述（SLR），旨在全面梳理该领域的方法、模型和工具。研究背景指出，传统的脆弱性评估主要关注数字资产和技术基础设施，但网络攻击者越来越多地利用人为因素，因此有必要系统性地评估人类脆弱性。人类脆弱性不仅包括个体对网络威胁的 susceptibility，还涉及心理、认知、行为、社会和环境等多维因素，这些因素可能有意或无意地危及系统安全。然而，现有研究碎片化，多从静态角度出发，缺乏对脆弱性在个体与系统间动态传播的关注。本文遵循PRISMA框架，搜集2017至2025年间相关研究，旨在探索是否存在能够动态覆盖人类脆弱性全谱系的评估方法、模型或工具。综述揭示了当前解决方案的空白与局限，并指出了未来需要进一步研究的方向，特别是实现同时、动态地评估无意与有意两个维度的人类脆弱性。本文适合安全研究人员、安全意识培训设计者及人因安全从业者阅读。

💡 推荐理由: 该综述系统梳理了人类脆弱性评估的现状与缺口，为安全团队设计更全面的人因安全策略提供了理论依据，有助于弥补技术防御中忽视的人为弱点。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Seunghyun Lee, David Brumley

该论文提出了 ExploitBench，一个能力阶梯式基准测试，用于评估 LLM 驱动的网络安全代理的漏洞利用能力。现有 LLM 安全基准通常将崩溃视为利用成功，忽略了从触发漏洞到构建原语、控制流劫持、任意代码执行等关键步骤。作者将利用过程分解为 16 个可测量的能力标志，涵盖覆盖度、崩溃、沙箱原语、任意读/写、控制流劫持、任意代码执行等阶段。每个能力通过确定性预言机验证：使用每轮随机挑战-响应验证原语、基于差分执行测量进展、并通过信号处理器证明代码执行。实验基于 41 个 V8 漏洞实例化 ExploitBench，V8 因其广泛部署和强利用缓解措施被选中。论文报告了三组实验：<模型,环境>作为主要测量；<模型,环境,自适应辅导>引入自适应反馈测试针对性指导的影响；<模型,环境,工具集>替换为模型原生 CLI 以检查厂商优化是否提升利用能力。结果表明，公开前沿模型与私有前沿模型之间存在显著能力差距：8 个公开模型能常规到达漏洞代码并触发崩溃，但无法实现任意代码执行；而私有模型在约一半漏洞上实现了任意代码执行。论文认为，针对强化目标的利用构建是新兴的前沿能力。

💡 推荐理由: 该基准首次将漏洞利用能力细粒度量化，为评估 LLM 在真实攻击场景中的极限提供了标准化工具，有助于安全社区理解当前模型的能力边界并指导安全产品设计。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song

该论文提出了ExploitGym，一个用于评估AI代理漏洞利用能力的大规模、多样化、逼真的基准测试平台。随着AI代理能力的快速提升，其可能显著重塑网络安全格局，因此需要严格的评估。漏洞利用是将一个尚未成为攻击的漏洞转化为具体安全影响（如未授权文件访问或代码执行）的关键能力，是一项特别具有挑战性的任务，因为它需要底层程序推理（例如关于内存布局）、运行时适应性以及在长时间跨度内持续推进。同时，漏洞利用具有固有的双重用途，既支持防御工作流程，又降低了攻击的门槛。尽管其重要性和诊断价值，漏洞利用仍然缺乏充分的评估。为了填补这一空白，ExploitGym任务要求AI代理在给定触发漏洞的程序输入后，逐步将其扩展为可工作的利用代码。该基准测试包含来自三个领域的898个实例，这些实例源自现实世界的漏洞：用户空间程序、Google的V8 JavaScript引擎和Linux内核。研究人员对每个实例应用了不同的安全保护措施，以隔离它们对代理性能的影响。所有配置都打包在可重现的容器化环境中。评估结果表明，尽管漏洞利用仍然具有挑战性，但前沿模型能够成功利用非平凡比例的漏洞。例如，最强的配置是Anthropic的最新模型Claude Mythos Preview和OpenAI的GPT-5.5，它们分别对157个和120个实例产生了可工作的利用代码。值得注意的是，即使启用了广泛使用的防御措施，模型仍然保持了非平凡的成功率。这些结果确立了ExploitGym作为漏洞利用的有效测试平台，并突显了日益强大的AI代理带来的日益增长的网络安全风险。

💡 推荐理由: 该研究首次系统地评估了AI代理在真实世界漏洞上的利用能力，揭示了前沿模型已具备非平凡的自动化利用潜力，对蓝队评估自身防御有效性及红队攻击风险具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qi Ling, Yujun Liang, Yi Ren, Baris Kasikci, Shuwen Deng

该论文提出一种名为 GadgetMeter 的框架，用于定量且准确地评估推测执行元素（speculative gadgets）的可利用性。推测执行漏洞（如 Spectre）利用现代处理器中的推测执行机制，通过微架构侧信道泄露敏感信息。现有工作通常关注于发现新的 gadgets 或缓解措施，但缺乏对 gadgets 可利用性的统一量化标准。GadgetMeter 通过分析微架构行为、时序差异和缓存状态，建立了一套自动化的评估指标。该框架首先从二进制代码中识别出潜在的推测执行 gadgets，然后模拟推测执行路径，并测量不同条件下的执行时间差异和缓存访问模式，从而计算每个 gadget 的利用难度评分。实验在多个真实处理器（如 Intel、AMD）上验证，表明 GadgetMeter 能够有效区分高可利用性与低可利用性的 gadgets，并与已知攻击的成功率有良好相关性。该工作为安全研究人员提供了一种系统化的方法论，用于评估推测执行漏洞的威胁程度，并辅助设计更精准的缓解策略。

💡 推荐理由: 该研究为推测执行漏洞的可利用性提供了定量评估方法，有助于安全团队聚焦高风险的 gadget，优化防御资源分配。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Octavian Suciu, Connor Nelson, Zhuoer Lyu, Tiffany Bao, Tudor Dumitras

该论文提出了一种新的漏洞可利用性评估指标——Expected Exploitability (EE)，旨在解决现有指标在漏洞披露时评估不准确且存在类别偏差的问题。传统的可利用性指标（如CVSS）依赖于静态技术特征，这些特征对漏洞利用开发的预测能力较差，并且由于利用标签不准确导致分类器存在类别偏差。为了克服这些挑战，研究者采用了一种随时间变化的可利用性视角，利用数据驱动的方法从披露后的技术文章、概念验证漏洞代码和社交媒体讨论等人工制品中学习EE。论文分析了现有特征对于预测功能性漏洞的局限性，并设计了新的特征集以充分利用以前未被充分利用的人工制品。同时，研究者揭示了漏洞利用预测中的标签噪声问题，将其归类为最难的类别和特征依赖的标签噪声，并基于领域特定观察开发了将噪声鲁棒性融入EE学习的技术。在103,137个漏洞的数据集上，EE将精确率从现有指标（包括两个最先进的漏洞利用分类器）的49%提高到86%，并且性能随时间不断提升。EE分数还能捕获利用的紧迫性，区分哪些漏洞在近期内会被开发。该工作为安全团队提供了一种更准确的漏洞可利用性评估方法，有助于优先修复高风险漏洞，但具体实践需要进一步验证。

💡 推荐理由: 准确评估漏洞可利用性是漏洞管理的核心挑战。本工作将精确率从49%提升至86%，显著优于现有指标，能帮助安全团队更有效地确定修复优先级，减少误报和遗漏。

🎯 建议动作: 纳入内部评估

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#vulnerability-assessment

Human Vulnerability Assessment in Cybersecurity: A Systematic Literature Review of Methods, Models, and Instruments

ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents

ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?

GadgetMeter: Quantitatively and Accurately Gauging the Exploitability of Speculative Gadgets.

Expected Exploitability: Predicting the Development of Functional Vulnerability Exploits.