#LLM security

共收录 3 条相关安全情报。

← 返回所有主题
👥 作者: Huijun Zhou, Xiaohan Zhang, Haozhe Zhang, Haoyang Zhang, Mi Zhang, Min Yang

该论文首次对真实世界中远程MCP(模型上下文协议)服务器的认证安全性进行了大规模测量研究。MCP正成为连接大语言模型与外部服务的通用接口,尤其是在智能体需要访问用户在线服务(如社交媒体、生产力工具、金融服务)时,远程部署变得越来越重要。然而,MCP客户端与远程服务器之间的认证边界安全尚未得到充分研究。研究团队通过扫描发现了7,973个活跃的远程MCP服务器,其中40.55%的工具暴露无需任何认证。在已认证的服务器中,OAuth是主要的授权机制,但MCP生态系统中的OAuth部署呈现出三个典型特征:开放的客户端环境、动态客户端注册和委托授权。这些特征将MCP部署与传统OAuth区分开来,带来了新的攻击面。基于这一观察,研究者推导出认证缺陷的分类体系,包含三类MCP特有缺陷和传统的OAuth配置错误,共计四大类九种具体缺陷类型。为实现大规模评估,他们设计了一个半自动化检测框架,结合被动流量检查和主动动态探测。对119个可测试的真实世界OAuth使能MCP服务器应用该框架后,发现每个服务器至少存在一种缺陷,共识别出325个缺陷,其中动态客户端注册缺陷影响了96.6%的测试服务器。许多缺陷可导致敏感信息泄露和账户接管。通过负责任的披露,研究者已获得9个CVE编号。该研究揭示了MCP生态系统中普遍存在的认证弱点,强调了加强基于OAuth的远程部署安全性的迫切需求。

💡 推荐理由: MCP作为LLM与外部服务的关键接口,其认证安全直接关系到用户数据和账户安全。本研究首次全面揭示了远程MCP服务器的认证缺陷普遍性,包括大量无认证暴露和OAuth实现漏洞,对智能体安全具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)
👥 作者: Samuel Korn

该论文系统性地研究了检索增强生成(RAG)系统在知识库投毒攻击下的鲁棒性,重点关注不同RAG架构之间的差异。现有攻击几乎只在简单的“检索-生成”流水线上测试,而本文首次评估了四种典型RAG架构:vanilla RAG(标准流水线)、agentic RAG(智能体式检索)、MADAM-RAG(多智能体辩论)和Recursive Language Models(递归语言模型)。实验基于921个Natural Questions问答对,在单文档投毒(N=1)场景下比较了干净基线、简单注入和一种名为CorruptRAG-AK的对抗攻击——该攻击利用元认知框架针对可信度评估进行攻击。核心发现:架构是影响对抗鲁棒性的高可变因素。在CorruptRAG-AK攻击下,各架构的攻击成功率差异显著:vanilla RAG高达81.9%,而RLM仅24.4%,跨度近58个百分点,尽管它们在干净数据上的准确率相近(约92%)。进一步分解发现,一旦投毒文档被检索到,攻击优势主要来自对抗性框架(而非检索优化),且脆弱性集中在内容推理阶段。MADAM-RAG在重新实现中表现出最高的矛盾检测率,但LLM评判器过度识别了该行为(精确率约48.5%),因此报告值为上限。即便检测到矛盾,MADAM-RAG也无法可靠解决,导致即使是干净输入也有41.4%的非回答率(不过可能与实现偏差有关)。论文引入了一个七类别行为分类法,涵盖了矛盾检测、模糊回答及失败模式等,超越了二元准确率。代码、数据和笔记本已公开可用。适合关注LLM安全、RAG系统防护及对抗鲁棒性研究的读者。

💡 推荐理由: 揭示了不同RAG架构在知识库投毒下的脆弱性差异,指明攻击成功的关键环节是内容推理而非检索,为设计更鲁棒的RAG系统提供了重要参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Soheil Khodayari, Xuenan Zhang, Bhupendra Acharya, Giancarlo Pellegrino

随着大型语言模型(LLM)被越来越多地集成到浏览、检索、总结网页内容并据此采取行动的系统中,网页已成为模型行为的不可信输入向量。这使网站所有者、贡献者和攻击者能够直接在网页资源中嵌入指令,即间接提示注入。尽管先前的工作在受控环境中展示了此类攻击,但其实际普遍性、部署方式和现实影响仍不清楚。本研究首次对网页和HTTP响应中的间接提示注入进行了大规模实证分析。通过分析来自2480万个主机的12亿个URL,研究团队在1.17万个页面中识别出1.53万个经过验证的实例。这些并非孤立案例:少数重复出现的模板占据了大多数情况。研究对其目标、传递机制、可见性、持久性和影响进行了分类,揭示了一个异构的生态系统,涵盖干扰性提示、声誉操控、内容保护指令和AI机器人检测,目标系统包括爬虫、搜索管道、客服代理和招聘工作流。一个关键发现是大多数指令针对机器而非人类:约70%出现在非渲染的HTML中(如头部、注释、元数据),许多可见案例通过渲染技术隐藏。为评估实际风险,研究在13个模型和四种网页表示上进行了5200次控制实验。结果显示合规性有限但不可忽视,对于较小模型在纯文本输入上合规率可达8%,而结构化表示通过保留结构线索降低了合规性。总体而言,基于提示的干扰已存在于网页生态系统中,并成为LLM驱动自动化与其消费网站之间日益紧张的源头。

💡 推荐理由: 真实网络环境中已存在大量间接提示注入实例,威胁LLM驱动的自动化系统,安全团队需重新评估对网页内容的信任模型。

🎯 建议动作: 研究跟进,将间接提示注入纳入威胁建模,评估内部系统对网页内容的处理方式。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)