#LLM security 主题 - Cyber Security Daily Radar

👥 作者: Huijun Zhou, Xiaohan Zhang, Haozhe Zhang, Haoyang Zhang, Mi Zhang, Min Yang

该论文首次对真实世界中远程MCP（模型上下文协议）服务器的认证安全性进行了大规模测量研究。MCP正成为连接大语言模型与外部服务的通用接口，尤其是在智能体需要访问用户在线服务（如社交媒体、生产力工具、金融服务）时，远程部署变得越来越重要。然而，MCP客户端与远程服务器之间的认证边界安全尚未得到充分研究。研究团队通过扫描发现了7,973个活跃的远程MCP服务器，其中40.55%的工具暴露无需任何认证。在已认证的服务器中，OAuth是主要的授权机制，但MCP生态系统中的OAuth部署呈现出三个典型特征：开放的客户端环境、动态客户端注册和委托授权。这些特征将MCP部署与传统OAuth区分开来，带来了新的攻击面。基于这一观察，研究者推导出认证缺陷的分类体系，包含三类MCP特有缺陷和传统的OAuth配置错误，共计四大类九种具体缺陷类型。为实现大规模评估，他们设计了一个半自动化检测框架，结合被动流量检查和主动动态探测。对119个可测试的真实世界OAuth使能MCP服务器应用该框架后，发现每个服务器至少存在一种缺陷，共识别出325个缺陷，其中动态客户端注册缺陷影响了96.6%的测试服务器。许多缺陷可导致敏感信息泄露和账户接管。通过负责任的披露，研究者已获得9个CVE编号。该研究揭示了MCP生态系统中普遍存在的认证弱点，强调了加强基于OAuth的远程部署安全性的迫切需求。

💡 推荐理由: MCP作为LLM与外部服务的关键接口，其认证安全直接关系到用户数据和账户安全。本研究首次全面揭示了远程MCP服务器的认证缺陷普遍性，包括大量无认证暴露和OAuth实现漏洞，对智能体安全具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Samuel Korn

该论文系统性地研究了检索增强生成（RAG）系统在知识库投毒攻击下的鲁棒性，重点关注不同RAG架构之间的差异。现有攻击几乎只在简单的“检索-生成”流水线上测试，而本文首次评估了四种典型RAG架构：vanilla RAG（标准流水线）、agentic RAG（智能体式检索）、MADAM-RAG（多智能体辩论）和Recursive Language Models（递归语言模型）。实验基于921个Natural Questions问答对，在单文档投毒（N=1）场景下比较了干净基线、简单注入和一种名为CorruptRAG-AK的对抗攻击——该攻击利用元认知框架针对可信度评估进行攻击。核心发现：架构是影响对抗鲁棒性的高可变因素。在CorruptRAG-AK攻击下，各架构的攻击成功率差异显著：vanilla RAG高达81.9%，而RLM仅24.4%，跨度近58个百分点，尽管它们在干净数据上的准确率相近（约92%）。进一步分解发现，一旦投毒文档被检索到，攻击优势主要来自对抗性框架（而非检索优化），且脆弱性集中在内容推理阶段。MADAM-RAG在重新实现中表现出最高的矛盾检测率，但LLM评判器过度识别了该行为（精确率约48.5%），因此报告值为上限。即便检测到矛盾，MADAM-RAG也无法可靠解决，导致即使是干净输入也有41.4%的非回答率（不过可能与实现偏差有关）。论文引入了一个七类别行为分类法，涵盖了矛盾检测、模糊回答及失败模式等，超越了二元准确率。代码、数据和笔记本已公开可用。适合关注LLM安全、RAG系统防护及对抗鲁棒性研究的读者。

💡 推荐理由: 揭示了不同RAG架构在知识库投毒下的脆弱性差异，指明攻击成功的关键环节是内容推理而非检索，为设计更鲁棒的RAG系统提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Soheil Khodayari, Xuenan Zhang, Bhupendra Acharya, Giancarlo Pellegrino

随着大型语言模型（LLM）被越来越多地集成到浏览、检索、总结网页内容并据此采取行动的系统中，网页已成为模型行为的不可信输入向量。这使网站所有者、贡献者和攻击者能够直接在网页资源中嵌入指令，即间接提示注入。尽管先前的工作在受控环境中展示了此类攻击，但其实际普遍性、部署方式和现实影响仍不清楚。本研究首次对网页和HTTP响应中的间接提示注入进行了大规模实证分析。通过分析来自2480万个主机的12亿个URL，研究团队在1.17万个页面中识别出1.53万个经过验证的实例。这些并非孤立案例：少数重复出现的模板占据了大多数情况。研究对其目标、传递机制、可见性、持久性和影响进行了分类，揭示了一个异构的生态系统，涵盖干扰性提示、声誉操控、内容保护指令和AI机器人检测，目标系统包括爬虫、搜索管道、客服代理和招聘工作流。一个关键发现是大多数指令针对机器而非人类：约70%出现在非渲染的HTML中（如头部、注释、元数据），许多可见案例通过渲染技术隐藏。为评估实际风险，研究在13个模型和四种网页表示上进行了5200次控制实验。结果显示合规性有限但不可忽视，对于较小模型在纯文本输入上合规率可达8%，而结构化表示通过保留结构线索降低了合规性。总体而言，基于提示的干扰已存在于网页生态系统中，并成为LLM驱动自动化与其消费网站之间日益紧张的源头。

💡 推荐理由: 真实网络环境中已存在大量间接提示注入实例，威胁LLM驱动的自动化系统，安全团队需重新评估对网页内容的信任模型。

🎯 建议动作: 研究跟进，将间接提示注入纳入威胁建模，评估内部系统对网页内容的处理方式。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#LLM security

A First Measurement Study on Authentication Security in Real-World Remote MCP Servers

Architecture Matters: Comparing RAG Systems under Knowledge Base Poisoning

Indirect Prompt Injection in the Wild: An Empirical Study of Prevalence, Techniques, and Objectives