#security-evaluation 主题 - Cyber Security Daily Radar

👥 作者: Yuchuan Tian, Mengyu Zheng, Haocheng Mei, Ye Yuan, Chao Xu, Xinghao Chen, Hanting Chen, Yu Wang

本文提出 SafeClawBench，一个专门用于评估工具使用型大语言模型（LLM）代理安全性的分阶段基准测试。现有安全评估通常将所有失败模式合并为一个攻击成功率指标，难以区分模型仅是同意了攻击者意图，还是实际产生了可观察的损害。SafeClawBench 包含 600 个受控对抗任务，覆盖 6 种攻击家族：直接提示注入、间接提示注入、工具返回注入、记忆投毒、记忆提取和歧义驱动的非安全推理。与以往工作不同，该基准测试报告三个独立端点：语义攻击接受（模型是否在文本层面接受攻击意图）、审计可见危害证据（是否存在可通过日志审查追溯的损害证据）、沙箱观察到的工具/状态危害（在沙箱环境中观察到的实际工具调用或状态改变）。作者在 5 个代理端点和 4 种提示级别策略下进行评估，发现这些端点捕获了不同的失败模式。在没有额外提示保护的情况下，不同模型的语义失败率差异较大，从 9.0% 到 44.2% 不等。审计可见的危害证据范围比语义失败更窄，而在一个独立的可执行协议下，部分任务在通过语义检查后仍产生了沙箱危害：在 12000 行的匹配分析中，347 例沙箱危害中有 291 例来自语义检查通过的行。不同的提示策略会改变端点结果，但其效果依赖于模型和协议。SafeClawBench 提供了一个可重复的框架，用于比较代理模型和提示策略条件，而不会混淆文本合规性、证据支持的有害行为和可执行状态变化。开源数据集已发布在 Hugging Face 上。

💡 推荐理由: 该工作为 LLM 代理安全评估提供了更精细的分阶段指标，帮助防御者区分不同类型的失败，避免被单一攻击成功率误导，从而制定更有针对性的防护策略。

🎯 建议动作: 建议安全团队引入 SafeClawBench 框架，在评估 LLM 代理安全性时同时关注语义、审计和沙箱三个层面的失败模式，并据此调整提示保护策略。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peiyang Li, Songping Wang, Yi Huang, Yanhua Shi, Chenhao Zhang, Qi Li, Yueming Lyu, Caifeng Shan, Fengting Li, Chao Feng, Chuanqun Zhu, Liang Chen

随着自主AI智能体从对话式交互转向任务执行，安全威胁也从文本欺骗升级为系统破坏。现有安全评估工作面临三大瓶颈：风险覆盖碎片化（缺乏系统性分类）、执行环境静态或低保真（无法模拟真实多步交互）、评估指标单一粗粒度（仅考虑最终结果忽略过程安全）。为解决这些问题，本文提出AgentCanary——一个针对自主AI智能体的全面安全评估框架。其核心贡献包括三方面：首先，提出正交的“入口×影响”风险分类法，将对抗性影响的注入途径与最终危害解耦，并实例化为覆盖真实部署流程的场景化任务套件；其次，构建高保真真实可执行环境，智能体与真实工具交互，动态生成任务工件，支持多步操作的持久状态，从而自然适配长期攻击评估；最后，实现基于完整轨迹的多维度评估，从结果安全、安全意识和任务效用三个正交维度对智能体行为进行分解评分。作者在多个前沿大语言模型（如GPT-4、Claude等）上，针对三种智能体框架（如AutoGPT、LangChain等）和多种攻击方法（如提示注入、工具劫持、状态污染等）进行了系统实验。结果发现，当前智能体普遍无法识别所面临的攻击，尤其是在技能被篡改、持久状态污染和长时域执行攻击场景下表现脆弱。该工作为构建更可靠和安全的智能体系统提供了系统化的基准评估。

💡 推荐理由: 随着AI智能体被赋予真实工具和执行权限，其安全评估成为蓝队必须关注的领域。AgentCanary提供了首个兼顾风险分类、高保真环境和多维度轨迹评估的框架，帮助安全团队系统性地发现智能体在复杂任务中的脆弱性，特别是在长期执行和状态持久化场景下的隐蔽攻击。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zvi Topol

这篇论文提出了一种新的方法来评估大型语言模型（LLM）在面对红队攻击时的鲁棒性。传统的评估方法通常只使用攻击成功率（ASR）这一单一指标，将多次攻击简化为一个二元结果，忽略了模型在攻击过程中如何逐步抵抗或屈服的结构化行为。作者创新性地将过程挖掘（process mining）技术应用于红队攻击追踪数据，从事件日志中提取并分析过程模型。实验设计包含60个来自HarmBench的提示词，针对两个LLM（GPT-OSS 120B和Llama 3.3 70B），使用10种提示词变异策略，每个提示最多尝试110次，共生成8,575个带分数的事件。通过提取直接跟随图（DFGs）和状态转移矩阵，论文揭示了传统ASR无法捕捉的结构性防御差异：GPT-OSS表现出近似吸收的拒绝状态（一旦拒绝几乎不再被攻破），而Llama则显示出多个从拒绝状态成功越狱的渗透路径。此外，实验还发现变异器的有效性在模型间呈现不对称性，且不同模型的时间-越狱分布相差一个数量级。这项研究提供了更深入理解LLM安全行为的方法，适合AI安全研究人员、红队评估人员以及LLM安全开发人员阅读。

💡 推荐理由: 传统的攻击成功率指标失于粗糙，过程挖掘方法能揭示模型防御行为的深层结构，帮助安全团队发现不同模型在对抗攻击中的薄弱环节，从而设计更针对性的防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shifat E Arman, Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin

该论文研究了工具增强型大语言模型（LLM）代理在面临提示注入攻击时的安全性问题。现有评估通常仅关注单一攻击表面（如工具输出）并报告一个固定的攻击成功率（ASR），但作者指出工具描述（tool descriptions）是另一个被忽视的攻击表面——代理在每次调用工具前都会读取该描述，攻击者同样可以在此处植入恶意指令。为了验证这一假设，作者保持注入载荷（payload）字节级一致，通过工具输出和工具描述两个表面，在来自6个模型家族的13个LLM以及4个任务套件上进行了6830次攻击实验。结果发现，相同的payload在不同模型上的成功率呈现出镜像反转模式：例如，GPT-4.1在工具输出表面具有96%的成功率，但在工具描述表面仅为4%；而Gemini 3 Flash则相反，分别为20%和98%。方差分解显示，攻击表面的独立贡献为0%，而模型与表面的交互作用贡献了16.7%的变异。这表明脆弱性并非取决于单一通道，而是模型-表面的配对属性。为此，作者提出了自适应攻击率（Adaptive Attack Rate, AAR），即取所有表面上每个模型-任务的最高成功率，平均比最强固定表面基线高出9.1个百分点。进一步实验发现，标准的提示级防御（如过滤、指令对抗）继承了同样的盲点：它们能将工具输出表面的ASR降至10-18%，但工具描述表面的ASR仍高于54%。该研究揭示了当前LLM安全评估的单表面偏见，强调防御和评估必须报告每个表面的脆弱性。

💡 推荐理由: 打破了'单一表面即可衡量模型脆弱性'的常见假设，指出安全评估必须覆盖所有攻击表面（如工具描述），否则将严重低估风险。对于构建LLM代理的团队，这是必须知晓的设计盲点。

🎯 建议动作: 纳入内部评估，要求安全测试覆盖工具输出和工具描述两个攻击表面；重新审视现有防御策略的有效性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mohammed Kharma, Ahmed Sabbah, Mohammad Alkhanafseh, Mohammad Hammoudeh, David Mohaisen

本研究针对大型语言模型（LLM）在自动代码生成中存在的安全问题，进行了全面的实证评估。尽管LLM显著提升了软件开发效率，但其生成的代码常因忽略关键安全考量（如弱加密、输入验证不当）而存在漏洞。作者选取了五种LLM和四种编程语言（Java、C++、C、Python），系统比较了多种提示工程方法对代码安全性的影响。特别地，他们提出了一种名为“弱点感知零样本思维链（WA-0CoT）”的提示策略，通过注入基于CWE映射的安全上下文来引导模型推理，旨在减少漏洞。实验采用卡方检验分析，结果显示：不同提示方法在漏洞频率或密度上并未产生统计学显著差异，但包括WA-0CoT在内的提示策略系统性地改变了CWE类别分布的组成，且该影响因编程语言而异。主要贡献在于：1）提供了跨模型、跨语言的LLM生成代码安全性的系统评估；2）揭示了仅靠提示工程无法可靠降低总体漏洞水平；3）强调了在评估LLM生成代码安全性时，需考虑语言感知和模型感知的提示设计。该研究适合安全研究人员、LLM开发者以及关注AI代码生成安全性的工程团队阅读。

💡 推荐理由: 该研究揭示了当前LLM代码生成中提示工程在安全方面的局限性，提醒从业者不能依赖简单提示来防范漏洞，需结合静态分析、安全审查等多重措施。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz

本文提出了一种面向真实世界场景的AI渗透测试代理评估协议。现有基准测试（如夺旗、远程代码执行、漏洞复现、轨迹相似度等）通常在简化或狭窄环境中评估代理，无法充分体现真实渗透测试中的复杂性、开放性探索和战略决策需求。作者设计的新协议将评估从任务完成转向漏洞发现验证，支持在具有多重攻击面和漏洞类型的复杂目标上进行评估。协议核心包括：基于结构化真实数据与LLM语义匹配的漏洞识别；采用二分图匹配解决歧义发现；持续维护真实数据；对随机代理进行重复和累积评估；引入效率指标；以及可持续实验的测试集缩减选择。该协议能更真实、更具操作性地比较AI渗透测试代理的实际性能。作者还发布了专家标注的真实数据和代码（https://github.com/jd0965199-oss/ethibench）以促进可复现研究。本文适合AI安全研究人员、渗透测试工具开发者、以及关注自动化安全评估的蓝队人员阅读。

💡 推荐理由: 现有AI渗透测试基准无法真实反映代理在现实环境中的能力，本文提出更贴近实战的评估协议，有助于筛选真正有效的安全自动化工具，推动AI辅助渗透测试技术落地。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Thomas J. Neubert, Laxima Niure Kandel, Berker Peköz

该论文针对开放、非密的安全自主研究受限于无法接触实际作战平台、受争议通信基础设施和代表性对抗测试条件的问题，提出了一种面向威胁的数字孪生方法，用于对具备学习能力的自主平台进行网络安全评估。该方法被实例化为一套开源、模块化的数字孪生系统，模拟典型的自主堆栈，包含分离的感知、自主控制和监控功能；置信度门控的多模态感知；显式的指令与遥测信任边界；以及运行时保持安全的行为。贡献在于方法论层面：一个可复现的设计模式，将威胁分析转化为可观察、可控制的测试，针对欺骗、重放、畸形输入注入、降级感知和对抗性机器学习压力。虽然实现的代理基于地面平台，但架构有意围绕与无人机和空间系统共享的堆栈元素构建，包括受限的机载计算、间歇性或高延迟链路、概率感知和关键任务恢复行为。结果是提供了一个可实施的研究框架，用于无人机和空间领域的可靠且安全自主研究。

💡 推荐理由: 为蓝队提供了一种低成本的数字孪生测试床，无需物理平台即可模拟对抗条件下的自主系统安全评估，尤其适用于无人机和太空等受限环境。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#security-evaluation

SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents

AgentCanary: A Security Evaluation Framework for Autonomous AI Agents in Real Executable Environments

Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks

The Surface You Test Is Not the Surface That Breaks

An Empirical Evaluation of LLM-Generated Code Security Across Prompting Methods

From Controlled to the Wild: Evaluation of Pentesting Agents for the Real-World

Threat-Oriented Digital Twinning for Security Evaluation of Autonomous Platforms