#llm-agent 主题 - Cyber Security Daily Radar

👥 作者: Weifeng Yuan, Wenbo Guo, Feng Dong, Haoyu Wang, Yang Liu

LLM 代理通过从开放注册表下载技能来获得新能力。开发者通常让代理推荐并安装技能，但代理经常捏造不存在的技能名，这种现象称为“技能名幻觉”。本文首次大规模测量该漏洞，评估了 15,000 条提示和 12 种配置（4 个独立 LLM 和 8 个代理）。结果显示，所有配置都存在幻觉，平均幻觉率在独立 LLM 为 36.0%，在代理中为 36.9%，在真实开发者问题上高达 43.1%。系统共生成 5,669 个独特的虚构名称，且这些名称并非随机噪声：代理会跨提示和模型重复相同的虚假名称，为攻击者提供了高度可靠的目标。攻击者可预先注册这些名称对应的恶意技能，当代理尝试安装时即触发供应链攻击。作者测试了四种模型级防御，最强的检索接地将幻觉率从 40.8% 降至 3.2%，但严重损害了实用性——即使最优配置下，正确推荐技能的概率也仅为约六分之一。因此，技能名幻觉是高度可利用的漏洞，修复无法仅靠提示工程或模型调优，需要生态系统层面的结构性变革：注册表级名称预留和验证的推荐管道。

💡 推荐理由: 揭示了 LLM 代理技能推荐机制中的系统性安全漏洞，攻击者可以低成本利用虚构名称实施供应链攻击，影响所有依赖开放注册表的代理系统。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pei Chen, Baichao An, Mengying Wu, Binwang Wan, Geng Hong, Jinsong Chen, Xudong Pan, Jiarun Dai, Min Yang

本文针对模型上下文协议（MCP）的安全性问题进行了大规模实证研究。MCP已成为基于LLM的代理与外部工具及服务交互的标准接口，随着其被广泛应用于安全敏感操作，理解其真实世界风险变得至关重要。然而，由于缺乏大规模运行时MCP服务器，现有安全评估主要依赖对少量案例的扫描，但这些评估的可靠性尚不明确。为此，作者提出了MCPZoo——目前最大的用于动态分析的MCP服务器集合。MCPZoo通过一个多智能体框架构建，该框架模拟人类专家构建、诊断和迭代修复部署与运行时缺陷的过程，结合环境推理与反馈驱动的改进，将现实中的静态仓库转换为动态服务。为确保运行时交互性，服务器通过真实协议交互进行验证。最终，MCPZoo包含64,611个独立MCP服务器（总计113,927个），其中超过37,288个支持动态分析。基于MCPZoo，作者进行了首次生态系统规模的MCP服务器及对其进行分析的扫描器的测量。结果发现，现有扫描器报告96.89%的服务器存在风险，但这些信号并不可靠。具体而言，手动验证显示不到50%的采样告警为真阳性，且不同扫描器的输出存在明显不一致。总之，MCPZoo实现了大规模、可复现的MCP服务器安全测量，并暴露了当前扫描实践的限制。作者还发布了公共查询接口以支持MCP服务器的实际风险评估。

💡 推荐理由: 揭示了当前MCP安全扫描工具的可靠性问题，指出高误报率和不一致性，为蓝队和安全工程师正确评估MCP风险提供了关键警示，避免盲目信任扫描结果。

🎯 建议动作: 纳入内部评估：建议安全团队重新审视现有MCP扫描工具的有效性，并参考MCPZoo的方法进行更可靠的动态分析。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Chen Frydman, Aviram Zilberman, Rubin Krief, Abed Showgan, Andres Murillo, Sekiya Motoyoshi, Asaf Shabtai, Yuval Elovici, Rami Puzis

该论文提出了 COHORT，一个用于企业网络缓解措施自动化生成和验证的端到端框架。当前，针对已观测到的攻击者，分析师通常需要数周时间手动推导缓解措施、验证其不影响生产环境，并确保能阻断攻击。COHORT 首次实现了这一过程的自动化：通过角色分解的多智能体 LLM 工作流，生成候选缓解措施，并将其转换为实际设备命令（如防火墙、交换机、路由器），在高保真的 GNS3 模拟器上运行真实固件。每个候选缓解措施通过“对抗性重放”进行评估：在模拟的缓解后网络上重新执行原始攻击，与未缓解的基线进行配对比较，而非像以往工作那样依赖奖励信号或专家判断。此外，框架还包含连通性回归检查（LAN ping 和互联网 HTTP 探测）以拒绝破坏正常通信的缓解措施，并通过累积评估将批准的缓解措施叠加到持久状态上，以揭示复合效果。在三个拓扑和四个攻击场景（勒索软件、横向移动、DNS 外泄、数据窃取）中，生成的缓解措施中有 46.7% 既能阻断攻击又保持连通性，是单智能体基线的 4.4 倍。论文公开了演示视频及相关工件。

💡 推荐理由: COHORT 实现了缓解措施的自动化生成与验证，大幅缩短了响应时间，并通过对抗性重放确保有效性，是网络防御自动化的重要进展。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Zifan Peng, Yini Huang, Aiwen Lu, Qiming Ye, Peixian Zhang, Jingyi Zheng, Yule Liu, Xuechao Wang, Xinlei He, Jiaheng Wei

该论文聚焦于社交媒体平台上用户级隐私泄露问题。现有研究缺乏统一的基准来评估多模态（文本、图像、元数据）隐私泄露，且衡量指标多为二元准确率，无法捕捉暴露严重程度。为此，作者基于Rednote和Instagram的私有参考语料库提炼泄露模式，构建了SopriBench基准，包含50个用户画像、1569张图像，并标注了属性、上下文敏感性、粒度、泄露类型、推理难度和支持证据。同时，引入隐私暴露评分（PES），通过上下文敏感性加权粒度值。进一步，受溯因推理启发，提出无需训练的智能体框架Argus，从累积证据中形成假设，验证支持证据，并聚合跨帖子线索生成隐私画像。实验表明，Argus达到0.55 PES，比最强基线提升25%，尤其在跨帖子泄露场景下效果显著。这项工作为社交平台隐私泄露评估提供了标准化工具和高效分析方法。

💡 推荐理由: 社交平台隐私泄露威胁日益严重，现有评估方法碎片化。该工作首次构建多模态、用户级的综合基准和量化评分，并推出无需微调的智能体推理框架，显著提升跨帖子隐私推断能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Minseok Choi, Seungbin Yang, Dongjin Kim, Subin Kim, Jungmin Son, Yunseung Lee, Jaegul Choo, Youngjun Kwak

本文提出了一种名为Membrane的自我演化防护栏，用于增强大型语言模型（LLM）智能体防御不断演化的越狱攻击。当前的安全对齐方法难以适应新型攻击，而基于微调的安全分类器无法实时更新，基于记忆的防护栏又容易对良性查询过度拒绝。Membrane通过构建对比安全记忆（CSM）来解决该问题：每个记忆单元记录阻止有害查询的条件，同时保留允许与之表面相似的良性查询的条件，从而形成对比对。无需重新训练模型，Membrane在每次有害交互后，将该交互及其良性对照物蒸馏为一个对比单元，并按攻击策略索引，使得同一单元能泛化至该策略下不同主题的变体。推理时，检索到的单元作为安全决策的上下文依据。在模型级安全基准HarmBench和智能体级安全基准AgentHarm上，Membrane在所有六种越狱攻击上取得最高F1分数。尤为重要的是，在AgentHarm上良性拒绝率仅为7-14%，远低于先前方法的28-85%。此外，记忆单元在跨攻击迁移下仍保持87-88%的F1，且对记忆投毒攻击具有稳定性。该方法适合LLM安全研究者、智能体系统开发者及蓝队防御工程师关注。

💡 推荐理由: Membrane提出了一种无需重训练的自适应防护方案，有效平衡了有害拦截与良性放行，特别适合需要动态防御的LLM智能体场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Shifat E Arman, Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin

该论文研究了工具增强型大语言模型（LLM）代理在面临提示注入攻击时的安全性问题。现有评估通常仅关注单一攻击表面（如工具输出）并报告一个固定的攻击成功率（ASR），但作者指出工具描述（tool descriptions）是另一个被忽视的攻击表面——代理在每次调用工具前都会读取该描述，攻击者同样可以在此处植入恶意指令。为了验证这一假设，作者保持注入载荷（payload）字节级一致，通过工具输出和工具描述两个表面，在来自6个模型家族的13个LLM以及4个任务套件上进行了6830次攻击实验。结果发现，相同的payload在不同模型上的成功率呈现出镜像反转模式：例如，GPT-4.1在工具输出表面具有96%的成功率，但在工具描述表面仅为4%；而Gemini 3 Flash则相反，分别为20%和98%。方差分解显示，攻击表面的独立贡献为0%，而模型与表面的交互作用贡献了16.7%的变异。这表明脆弱性并非取决于单一通道，而是模型-表面的配对属性。为此，作者提出了自适应攻击率（Adaptive Attack Rate, AAR），即取所有表面上每个模型-任务的最高成功率，平均比最强固定表面基线高出9.1个百分点。进一步实验发现，标准的提示级防御（如过滤、指令对抗）继承了同样的盲点：它们能将工具输出表面的ASR降至10-18%，但工具描述表面的ASR仍高于54%。该研究揭示了当前LLM安全评估的单表面偏见，强调防御和评估必须报告每个表面的脆弱性。

💡 推荐理由: 打破了'单一表面即可衡量模型脆弱性'的常见假设，指出安全评估必须覆盖所有攻击表面（如工具描述），否则将严重低估风险。对于构建LLM代理的团队，这是必须知晓的设计盲点。

🎯 建议动作: 纳入内部评估，要求安全测试覆盖工具输出和工具描述两个攻击表面；重新审视现有防御策略的有效性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Andreas Happe, Jürgen Cito

该论文提出了 Cochise，一个面向自主渗透测试实验的轻量级参考框架（harness），仅 597 行 Python 代码。Cochise 的核心贡献在于提供了一个可复现的实验基础设施，使研究人员能够独立于具体的 LLM 模型、Agent 架构或工具集成来比较不同设计选择。框架采用分离的 Planner-Executor 架构：Planner 负责高层规划，长期状态维护在 LLM 上下文之外；Executor 基于 ReAct 模式通过 SSH 向 Linux 执行主机发送命令，并根据命令输出进行自我纠正。场景提示可以针对不同目标环境进行调整。为验证框架的有效性，作者在 Game of Active Directory (GOAD) 第三方测试床上进行了评估，GOAD 是一个 Active Directory 渗透测试靶场。实验结果显示 Cochise 能够自主完成多步攻击路径。此外，论文还发布了三个辅助工具：cochise-replay（离线回放捕获的会话）、cochise-analyze-logs 和 cochise-analyze-graphs（用于成本、令牌数、耗时和入侵程度分析），以及一组来自 GOAD 实验的 JSON 轨迹日志语料库，使研究者无需搭建高资源环境（48-64 GB RAM / 190 GB 存储）即可研究 Agent 行为。论文明确指出 Cochise 并非最先进的渗透测试 Agent，而是一个可复用的实验平台，用于比较不同模型、Agent 架构和渗透测试痕迹。该研究对 LLM 驱动的自主安全评估领域具有重要支撑价值。

💡 推荐理由: 为自主渗透测试研究提供了标准化、可复现的实验框架，解决了当前该领域因系统复杂度高导致难以比较不同方法的问题，对推动 LLM Agent 在安全评估中的应用基础研究有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Isaac David, Arthur Gervais

该论文提出 Patch2Vuln，一个利用语言模型代理从 Linux 发行版二进制补丁中重建漏洞信息的研究框架。安全更新发布后，防御者和攻击者均有机会对比漏洞版本和修复版本的软件，但实际运维中往往只有二进制包可用，缺乏源码补丁或公告文本。Patch2Vuln 构建了一个完全本地、可中断恢复的流水线：首先提取旧/新 ELF 二进制对，通过 Ghidra 和 Ghidriff 进行反汇编和差异分析；然后对变更函数进行排序，构建候选函数档案；最后调用离线大语言模型代理生成初步审计报告、有界验证计划以及最终审计结论。作者在 25 个 Ubuntu .deb 软件包对上评估了 Patch2Vuln，包括 20 个安全更新对和 5 个阴性对照，所有结果均基于私有源码补丁和二进制函数地面实况进行人工裁决。结果显示，代理在 20 个安全对中成功定位了 10 个经验证的安全相关补丁函数，并在 11 个对中给出了被接受的最终根因分类。进一步诊断发现，6 个安全对在模型推理前即因二进制差异分析或排序器遗漏了正确函数而失败，另有 1 个因上下文导出缺失导致失败。独立的有界验证步骤生成了两个目标级最小化新旧行为差异（均针对 tcpdump），但未发现崩溃、超时、消毒器发现或内存破坏证明；所有阴性对照均被归类为未知且未产生验证差异。实验表明，从二进制补丁进行代理式漏洞重建是一个有前景的研究方向，但同时指出二进制差异覆盖和局部行为验证仍是限制性组件。该工作对安全运营中自动化漏洞分析具有潜在价值，尤其适用于缺乏源码补丁的场景。

💡 推荐理由: 二进制补丁分析是安全运维中的关键环节，但手动逆向分析耗时且容易遗漏。Patch2Vuln 探索了利用 LLM 代理自动化这一过程的可能性，展示了无需源码即可定位安全修复函数的潜力，可帮助蓝队快速评估补丁影响、缩小攻击面。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yingkai Dong, Xiangtao Meng, Ning Yu 0006, Zheng Li 0023, Shanqing Guo

本文提出 JailFuzzer，一种基于大语言模型（LLM）代理的自动化模糊测试框架，用于黑盒环境下对文本到图像（T2I）生成模型进行越狱攻击。现有越狱方法存在访问需求不切实际、提示语不自然易被检测、搜索空间受限以及查询开销高等问题。JailFuzzer 结合模糊测试原理与 LLM 代理，包含三个核心组件：种子池（存储初始及越狱提示）、引导变异引擎（利用 LLM 代理生成语义有意义的变异）、以及 oracle 函数（评估越狱是否成功）。通过 LLM 代理构建引导变异引擎和 oracle 函数，使得框架在黑盒环境下保持高效性和适应性。大量实验表明，JailFuzzer 在越狱 T2I 模型方面具有显著优势：生成的提示自然且语义连贯，降低了被传统防御机制检测的概率；同时以极少的查询开销实现高成功率，在所有关键指标上优于现有方法。该研究揭示了 T2I 模型面临的新型越狱威胁，为强化生成模型的安全机制提供了重要参考。JailFuzzer 已开源，代码可在 https://github.com/YingkaiD/JailFuzzer 获取。

💡 推荐理由: 该研究展示了一种高效、自动化的黑盒越狱攻击方法，对 T2I 模型构成真实威胁，安全团队需关注并防范此类利用 LLM 代理的模糊测试攻击。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#llm-agent

Skills That Don't Exist: A Large-Scale Study of Hallucinated Skill Recommendation in LLM Agents

Rethinking MCP Security: A Large-Scale Study of Runtime MCP Servers and Security Scanner Reliability

COHORT: Collaborative Orchestration for Hardening via Offensive Replay on Emulated Topologies

What Your Posts Reveal: A Benchmark and Agentic Framework for User-Level Privacy Leakage on Social Media

Membrane: A Self-Evolving Contrastive Safety Memory for LLM Agent Defense

The Surface You Test Is Not the Surface That Breaks

Cochise: A Reference Harness for Autonomous Penetration Testing

Patch2Vuln: Agentic Reconstruction of Vulnerabilities from Linux Distribution Binary Patches

Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-to-Image Generation Models.