#penetration-testing 主题 - Cyber Security Daily Radar

👥 作者: Ruoyu Wang, Heng Zhao, Renjie Wu, Mengnan Zhao, Zhixuan Chu, Wanyu Lin, Tianhang Zheng

该论文针对大语言模型（LLM）驱动的自主渗透测试代理提出了一种新型动态欺骗防御系统 AgentSnare。LLM 代理通过“观察-行动”循环与工具交互：代理选择动作，工具返回观察结果，代理再基于观察继续决策。这种依赖关系使得防御方可以注入欺骗性观察来误导代理的决策。然而，现有防御方法通常依赖攻击前静态部署在环境中的孤立诱饵，高级代理能够逐步识别并绕过这些静态痕迹，最终将利用尝试重新聚焦到真实目标上。为解决此问题，AgentSnare 构建了一个轨迹自适应的欺骗系统，能够动态展开诱饵环境，持续将渗透代理从真实目标引开。其核心是一个“诱饵构造策略模型”，该模型根据代理的交互历史和当前诱饵状态，生成候选诱饵构件（如虚假服务、虚假文件或虚假漏洞信息）；随后系统验证这些候选构件的语义一致性，并增量地将有效构件融入一个事实一致的诱饵环境中。通过这种方式，AgentSnare 实现了三个目标：吸收（absorbing）代理的工具调用，使其在诱饵环境中消耗资源；转移（diverting）代理进入诱饵后的行动轨迹，使其偏离真实目标；以及解除（defusing）攻击，通过诱导代理基于诱饵证据生成完成报告，从而让攻击者认为任务已完成。实验基于 CVE-Bench 中的 15 个 Web 应用程序和三种攻击者模型，结果显示 AgentSnare 吸收了代理 46.8% 的工具调用，保留了 55.9% 的进入后（post-entry）行动在诱饵中，90.0% 的完成尝试基于诱饵证据；在全部 45 个攻击者-CVE 组合中，pass@3 指标下没有任何真实目标被成功利用。该研究为防御方提供了一种可动态适应攻击者行为的主动欺骗思路，适用于 LLM 驱动的自动化攻击场景。适合关注 AI 安全、自主代理防御、渗透测试对抗的研究人员和蓝队工程师阅读。

💡 推荐理由: LLM 代理正在被用于自动化渗透测试，传统静态诱饵容易失效。AgentSnare 提出了动态、轨迹自适应的欺骗方法，能显著降低真实目标被攻破的风险，为蓝队应对 AI 自动化攻击提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mohammad Allahbakhsh, Mohammad Hassan Bahari, Moslem Attar-Raouf

该论文重新思考了人工智能（AI）系统的渗透测试方法。传统的渗透测试主要评估攻击者是否能够利用软件、基础设施、配置或操作控制中的弱点实现安全相关的资源妥协（如获取数据、控制权限）。然而，在AI赋能系统中，攻击者可能通过影响提示词（prompt）、检索内容、传感器输入、训练数据、记忆、工具或人机交互循环来改变系统行为，而无需直接破坏底层基础设施。例如，提示注入、间接提示注入、数据投毒、传感器操纵、检索投毒、工具滥用以及智能体对齐失败等攻击路径，都是通过行为影响而非资源破坏来达成目标。因此，论文提出将AI系统的渗透测试重新定义为“目标驱动的行为评估”。作者明确定义了AI赋能系统（其学习模型实质上影响实现运营目标的行为）和AI渗透（在明确威胁模型下，诱导AI主导行为违反一个或多个运营目标的可行方式）。该定义保留了传统渗透测试，但扩展到了对抗性路径。论文进一步提出了一个测试工作流：识别运营目标、映射AI主导行为、分析对抗性影响面、定义行为失败标准、执行基于场景的测试、报告将对抗性行为与目标违反联系起来的证据。通过一个AI赋能安全运营中心助手的实例，展示了渗透如何通过行为影响而非基础设施破坏发生。该工作流和定义构成了一个技术框架，用于评估已部署AI系统中的对抗性成功。

💡 推荐理由: 随着AI系统在安全关键场景中的广泛应用，传统渗透测试已不足以评估其安全性。本文提出的行为目标违反框架填补了AI安全评估的空白，为防御者提供了系统化评估AI系统对抗鲁棒性的方法论。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ananda Dhakal, Krish Neupane, Aarjan Chaudhary

本文针对自主渗透测试领域的研究现状进行了深入分析。近期，许多自主渗透测试论文报告了高分基准结果，但这些系统通常在前沿大语言模型（LLM）周围添加了多组件的安全框架（harness）。由于这些系统同时改变了架构和骨干模型，很难区分性能提升来自安全框架还是底层模型本身。本文通过在XBOW基准的104个任务上使用默认编码CLI代理作为纯代理基线，进行了受控研究。第一阶段，使用相同的GPT-5模型、预算、目标接口和评分规则，运行Codex、OpenCode和Pi三个代理，确定最强同模型基线，并测试安全特定提示变体是否能提高得分。第二阶段，将默认的Codex框架与已发表的MAPTA和PentestGPT V2结果进行比较（使用最接近的可用模型匹配）。第三阶段，使用GPT-5.2和GPT-5.5重复纯代理实验，测量同一框架内的模型扩展效果。结果表明情况复杂但实用：专门的安全框架确实能带来可衡量的基准提升，可能提高成本效率，但纯编码代理已经能解决基准测试的大部分任务；多次纯代理运行的综合覆盖可以匹配或超过某些已发表的架构分数；更新的模型能显著提升同一框架的性能。因此，未来的评估在将基准提升归因于架构设计之前，应报告模型匹配的纯代理基线。该研究贡献了：1) 提出了评估自主渗透测试系统的严谨方法论；2) 证明了简单基线在标准化基准上的竞争力；3) 强调了模型能力在系统性能中的关键作用。适合所有从事LLM安全代理研究或评估的从业者阅读。

💡 推荐理由: 本文提出了评估自主渗透测试系统性能的关键方法论：必须报告模型匹配的纯代理基线，才能准确衡量安全架构带来的实际提升。这对于避免过度声明、推动领域严谨性至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Anlan Zheng, Tiantian Zhu

该论文提出ZERO-APT，一个闭环对抗框架，用于在智能防御环境下评估LLM驱动的自动化渗透测试代理。针对现有评估的三个主要不足：真实性（攻击目标静态且无防御）、一致性（多步攻击链因果一致性依赖不稳定的LLM推理）和可审计性（决策过程不透明），ZERO-APT在一个统一架构中集成了攻击者（Attacker）、防御者（Defender）和裁判（Judge）三个角色。防御者模块可配置，利用Sysmon遥测数据实时检测攻击，使攻击者面对动态响应的对手而非被动目标。为增强一致性，框架通过三种架构机制将因果一致性从LLM推理转移到系统架构：规划与执行分离、多维ReAct反馈（结合环境、记忆和规划反馈）、以及硬约束过滤的动作库。裁判模块负责逐轮裁决、维护全局状态，并生成结构化的后验威胁情报（CTI）报告，使每一步决策可追溯。实验基于Windows Server 2022后渗透场景，在五种场景和三种防御配置下评估，ZERO-APT达到79%的攻击成功率（对比Aurora 22%、PentestGPT 39%），因果一致性评分0.860（Aurora 0.930，Claude Code 0.520），并通过结构化CTI报告实现端到端决策可审计。论文开源了基准测试，以支持智能防御下渗透代理的评估。

💡 推荐理由: ZERO-APT首次将真实动态防御、攻击链因果一致性和完全可审计性整合到LLM驱动的渗透测试框架中，填补了当前自动化红队评估缺乏对抗环境的空白，对AI安全研究者和红队自动化工程师极具参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Galip Tolga Erdem

本文针对大型语言模型（LLM）作为自主攻击者的行为一致性进行了首个大规模实证研究。研究团队在固定提示词、编排器和目标环境（包含OWASP Juice Shop及两个附加易受攻击服务的蜜罐）的条件下，对四种LLM（Claude Sonnet 4、Gemini 2.5 Flash-Lite、GPT-4o-mini、qwen2.5-coder:14b）各自执行了100次独立的自动渗透测试，总共400次运行。结果显示，所有模型均未在迭代0-1阶段因内容拒绝而失败（经过编排器的一次性授权重提示后）。Claude Sonnet 4由于Anthropic API容量事件导致39次运行被截断（91/1135次调用返回HTTP 529错误，早期误判为安全拒绝）。各模型完全利用目标的比例分别为：Claude 61%、Gemini 85%、GPT-4o-mini 56%（使用98种不同攻击策略）、qwen 25%。失败模式具有模型特异性：Claude因API截断（39次）、qwen因过早完成（52次）、GPT-4o-mini因迭代预算耗尽（23次）。跨服务凭据重用仅出现在保留最多对话历史的配置中（qwen 57%、GPT-4o-mini 49%、云模型0%）。跨模型利用率的差异具有统计显著性（p<0.001），效应量大（qwen与Gemini的SQL注入率差异Cohen's h=1.12）。首次利用成功时间集中在15-30秒。该研究揭示了当前LLM在攻击一致性上的差异与缺陷，对防御者理解自动化攻击风险有重要参考价值。

💡 推荐理由: 首次大规模量化了LLM作为攻击者的行为一致性，揭示了不同模型在攻击成功率、失败模式和策略多样性上的显著差异，帮助防御者评估AI驱动攻击的真实威胁。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Vivek Dahiya, Sunny Nehra, Vipul Dholariya, Bhavik Shangari, Chandra Khatri

本文评估了前沿大语言模型（LLM）在网络安全任务中的实际能力，通过构建双模式基准测试：白盒函数级漏洞检测（VulnLLM-R，涵盖C/Java/Python）和黑盒Web应用安全测试（五个生产风格的应用，包含118个真实漏洞，覆盖20多个CWE家族，并将开源）。测试了六个前沿模型（GPT-5.4、Codex~5.3、Claude Opus~4.6、Sonnet~4.6、Gemini~3.1~Pro和Gemini~3~Flash）以及两个领域专用模型，在四种测试范式下进行。结果令人警醒：（1）每个前沿模型在白盒检测中产生10-50%的假阳性率，系统性地过度预测漏洞；（2）在黑盒测试中，前沿模型仅覆盖4-8%的真实漏洞，即使借助外部安全工具（Playwright MCP、Burp Suite MCP）也只提升到10-19%；（3）将结构化渗透测试方法编码到领域专用代理中，可将每个CWE家族的检测覆盖率提升至50%以上，表明方法论而非模型规模才是主要杠杆；（4）领域专用防御模型在所有模型中实现了最高精度（0.904）和最低假阳性率（9.7%），且仅需单个GPU。研究识别出训练数据的根本瓶颈：缺乏结构化安全测试轨迹（端到端请求/响应序列、失败数据和多步攻击链），并提出自博弈安全测试作为数据生成策略。结论支持为网络安全构建垂直领域基础模型。

💡 推荐理由: 该研究揭示了当前前沿LLM在网络安全任务中的严重不足（高误报、低覆盖率），并指出结构化方法论比模型规模更重要，为安全团队评估和选择合适AI工具提供了关键参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yasod Ginige, Pasindu Marasinghe, Sajal Jain, Suranga Seneviratne

本文提出 Pen-Strategist 框架，旨在解决现有基于 LLM 的自动化渗透测试框架在策略制定、领域推理和工具选择方面的局限性。该框架由两个核心组件组成：一个领域特定的推理模型和一个基于语义的 CNN 分类器。推理模型通过逻辑推理推导渗透测试策略，并利用强化学习对 Qwen-3-14B 模型进行微调，以生成策略；CNN 分类器则将策略转化为可执行的步骤。研究者构建了一个包含策略推导和步骤选择逻辑解释的推理数据集，在测试集上策略推导性能相比基线提升 87%。将微调后的模型集成到 PentestGPT 等现有自动化渗透测试框架中，在脆弱机器上子任务完成率提升 47.5%，并超越基线 GPT-5。在 CTFKnow 基准上相比基础模型性能提升 18%。步骤预测方面，语义 CNN 分类器相比商业 LLM 提升 28%，并增强了执行稳定性。用户研究定性评估显示，Pen-Strategist 生成的策略优于 Claude-4.6-Sonnet。该研究主要贡献在于提出了一种结合逻辑推理和强化学习的渗透测试策略制定方法，显著提升了自动化渗透测试的有效性和稳定性。

💡 推荐理由: 该框架显著提升了 LLM 在渗透测试中的策略推理能力，为自动化安全评估提供了更可靠的方法。安全团队可借鉴其思路，用于提升内部渗透测试工具或红队作业的智能化水平。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Benjamin Probst, Andreas Happe, Jürgen Cito

本文针对本地部署的开源权重大语言模型（LLM）在自动化 Linux 权限提升攻击任务中性能不佳的问题，提出并验证了五种系统级和提示工程的干预方法，以弥补其与云模型（如 GPT-4o）之间的性能差距。研究首先分析了开源模型在自主权限提升中的失败模式，然后设计并实现了链式思考（CoT）、检索增强生成（RAG）、结构提示、历史压缩和反思分析五种干预措施，并将其集成到渗透测试框架 hackingBuddyGPT 中。通过全因子消融实验，在包含多种 Linux 漏洞的测试环境中评估了各干预措施的效果。结果表明，启用干预后，Llama3.1 70B 模型能够利用 83% 的测试漏洞，而较小的模型如 Llama3.1 8B 和 Qwen2.5 7B 在引导下也达到了 67%，均持平甚至超过了 GPT-4o 基线的性能。进一步分析发现，基于反思的干预贡献最大，同时漏洞发现仍是本地模型的瓶颈。该研究为红队自动化渗透测试工具的选型与优化提供了实证依据，表明通过恰当的增强策略，本地模型可以在保证数据隐私的前提下达到接近商业云模型的攻击能力。

💡 推荐理由: 该研究证明本地开源 LLM 通过简单干预即可在权限提升攻击中媲美云模型，为注重数据隐私的组织提供了低成本、高自主性的自动化渗透测试方案，同时揭示了当前本地模型的瓶颈，对红队工具研发和安全评估实践具有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#penetration-testing

AgentSnare: Learning to Delay, Divert, and Defuse Autonomous Penetration Agents

Rethinking Penetration Testing for AI-Enabled Systems: From Resource Compromise to Behavioral Objective Violation

Baselines Before Architecture: Evaluating Coding Agents for Autonomous Penetration Testing

ZERO-APT: A Closed-Loop Adversarial Framework for LLM-Driven Automated Penetration Testing under Intelligent Defense

How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency

Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks

Pen-Strategist: A Reasoning Framework for Penetration Testing Strategy Formation and Analysis

Enhancing Linux Privilege Escalation Attack Capabilities of Local LLM Agents