#llm-agent-security 主题 - Cyber Security Daily Radar

👥 作者: Ismail Hossain, Sai Puppala, Md Jahangir Alam, Tanzim Ahad, Sajedul Talukder

随着开源LLM（大语言模型）智能体生态系统的迅速发展，社区贡献的“技能”（即模块化工具定义，用于扩展智能体能力）的安全性普遍缺乏审查。现有安全扫描器仅在代码层运行，对于指令层和多智能体层面的风险——例如通过自然语言指令劫持智能体、通过编码侧信道窃取数据、或跨管道链式危害——在结构上存在盲区。因此，需要一个语义化的、多维度的审查系统，而非另一个签名匹配器。本文提出了SKILLVETBENCH——一个托管在Hugging Face上的实时公共排行榜，利用LLM作为裁判来审查智能体技能。其核心创新是SARS（技能代理风险评分），一个五维代理风险度量，并针对指令遵循系统设计了带权重的计算公式。系统集成了完整的CVSS v4.0向量分解以及ClawHub双视图，将LLM生成的审查结果与官方市场裁定并列展示。实验表明，在78个已确认的恶意技能和22个良性对照上，LLM作为裁判阶段实现了零假阴性和零假阳性；而最佳静态基线SKILLSIEVE仍漏报15%。对于指令层类别（如提示注入和记忆投毒），传统工具漏报了89%至100%的威胁（例如CODEBERT未能检测出9个记忆投毒技能中的任何一个）。四个不同的LLM评估者的检测率从35%到95%不等，这促使在生产部署中采用集成评分以提升可靠性。该工作为开源智能体技能的安全性提供了一个自动化、可扩展的评估基准，对智能体生态的安全治理具有重要参考价值。

💡 推荐理由: 该研究直接针对LLM智能体生态中技能安全审查的空白，尤其是现有工具无法处理的指令层攻击，提供了一种基于LLM的自动化评估方法，对于保障智能体应用的安全至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Faruk Alpay, Taylan Alpay

该论文提出了 AgentSecBench，一个用于系统性评估大型语言模型（LLM）代理安全性的实证基准框架。LLM 代理在处理可信指令、检索记录和工具观测时，所有信息均通过同一个生成通道，导致数据流与权限混淆：即使应用策略未授权，不受信任的字符串也可能影响包含机密的响应或操作提议。AgentSecBench 基于一个形式化安全框架，定义了三个安全博弈：指令完整性、检索机密性和能力完整性，统一在“意图到执行无干扰”概念下，并允许特定的可泄露信息。该框架将应用策略表示为对授权观测和能力的投影，区分提示标注与强制投影，并衡量对抗优势以及防御是否在生成前关闭相关的模型可见通道。实验采用了精确标记（exact-marker）的方法，作为博弈的一种可观测实例，而非完整的语义安全声明，测试了泄露和禁止动作区分器，具有明确的真值基准。作者使用 Qwen3-0.6B 和 Qwen3-1.7B 模型，对六类防御方法进行了配对对抗性和良性控制执行实验。测量结果表明，当通道关闭时风险降低，但模型可见的对抗能力在某些情况下仍然可利用。最终成果是一种面向安全的评估方法：提示文本可以描述边界，而来源投影、能力限制和输出验证可以强制实施边界。该研究为 LLM 代理的安全评估提供了可量化的方法论，适合安全研究人员和 LLM 应用开发者阅读。

💡 推荐理由: LLM代理在实际应用中面临提示注入、隐私泄露和工具滥用等严重威胁，现有评估缺乏统一框架。AgentSecBench提供了可量化的安全评估方法论，能帮助防御者识别代理系统的薄弱环节，推动更安全的代理设计。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pengyu Sun, Qishu Jin, Enhao Huang, Zifeng Kang, Xin Liu, Dakun Shen, Song Li

本文提出了VIPER-MCP，这是首个针对MCP（模型上下文协议）服务器的端到端自动化漏洞审计框架。MCP已成为连接LLM代理与外部工具的标准接口，由于MCP服务器暴露特权操作（如shell执行、网络访问、文件系统操作），其工具处理程序中的实现缺陷可导致从自然语言输入到安全敏感接收器的直接路径，进而引发远程代码执行或系统完全沦陷。现有方法要么产生未经验证的静态告警，要么依赖缺乏代码级指导的固定模板库，无法触发需要特定参数形状或多步污染路径的漏洞。VIPER-MCP引入两种新技术：（1）两遍静态分析中的锚点-查询遍，通过函数级结构上下文增强标准污染告警，将文件级静态工件解析为具体的MCP工具处理程序，并生成以漏洞为锚点的调用链；（2）反馈驱动的提示进化机制，采用双变异器调度，独立校正工具选择漂移并加深参数渗透，结合适应度评分的种子选择，迭代优化自然语言提示以触发漏洞。在39884个真实开源MCP服务器仓库的大规模扫描中，VIPER-MCP发现了106个0-day漏洞，均通过端到端利用轨迹确认，迄今已分配67个CVE ID。所有发现的漏洞均已负责任地披露给受影响的开发者，并协调CVE分配。

💡 推荐理由: MCP正成为LLM代理生态的关键组件，其安全漏洞可能被攻击者利用自然语言提示远程控制主机。VIPER-MCP提供了首个自动化审计方案，可帮助防御者提前发现并修补此类高危漏洞。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Leo Linqian Gan, Jeffery Wu, Longyuan Ge, Lanqing Yang, Yonghao Song, Jingkai Zhang, Haojia Jin, Weiyi Wang, Guangtao Xue

本文针对自主LLM智能体面临的工作流劫持安全风险提出了一种新颖的被动式、带外检测方法。工作流劫持指攻击者在不被发现的情况下微妙地修改智能体调用的工具和技能，而现有防御依赖主机内部遥测（如审计日志），一旦主机操作系统被攻破，这些日志可以被伪造，失去可信度。为了解决这一问题，作者提出了ClawGuard系统，它利用电磁（EM）辐射作为侧信道，以物理方式独立于主机环境监测智能体工作流。其核心洞察在于：不同的智能体技能会产生独特的硬件使用模式（如计算、DRAM、网络阻塞），从而辐射出可测量的大尺度电磁包络。ClawGuard使用外部软件无线电（SDR）捕获这些物理信号，并通过一个漂移感知的管道将RF流转换为物理证据，该管道提取320维特征进行分类。在7.82TB的RF语料库上评估，ClawGuard达到了0.9945的AUC，攻击检测真阳性率100%，假阳性率仅1.16%。实验证明了被动电磁感知是一种实用、抗伪造的物理校验手段，能够有效对抗被攻陷主机软件的攻击。

💡 推荐理由: 现有LLM智能体安全检测依赖主机内部日志，一旦主机沦陷则防御失效。ClawGuard通过电磁侧信道提供物理层独立验证，为蓝队提供了一种无法被攻击者篡改的外部队列检测能力，显著提升了工作流劫持检测的可信度。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#llm-agent-security

SkillVetBench: LLM-as-Judge for Multi-Dimensional Security Risk Evaluation in Open-Source LLM Agent Skills

AgentSecBench: Measuring Prompt Injection, Privacy Leakage, and Tool-Use Integrity in LLM Agents

VIPER-MCP: Detecting and Exploiting Taint-Style Vulnerabilities in Model Context Protocol Servers

ClawGuard: Out-of-Band Detection of LLM Agent Workflow Hijacking via EM Side Channel