#LLM安全

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Alfredo Metere

该论文针对大语言模型(LLM)智能体与外部工具服务器之间通信的安全隐患,提出了一种名为“mcp-attested”的安全扩展机制。当前模型上下文协议(MCP)仅标准化了消息交换格式,但缺乏信任基础:主机(host)直接读取工具服务器自声明的工具列表并派发调用,无法限制可用的服务器、敏感级别或允许的工具范围。作者基于一个实际需求——让Enclawed智能体安全地使用谷歌的MCP服务器(Gmail、日历、Drive),在不改动MCP或Enclawed自身工具API的前提下,设计了三层增量机制:(1)服务器在已知URI发布离线签名的权限断言(clearance assertion),主机在首次工具派发前通过锚定的信任根验证该断言;(2)默认拒绝的每服务器工具允许列表,确保接入服务器不等于信任其全部工具;(3)基于特性门控的强制模式,将警告变为硬性拒绝,并将所有决策写入防篡改审计日志。论文给出了线格式、验证算法、安全性分析以及LLM驱动的对抗评估,并以RFC 2119规范形式陈述了模式、验证规则、错误注册、知名URI注册和机器可检查的一致性向量,使其可作为MCP的补充标准被采纳。未扩展的主机将忽略该知名文档,行为与当前完全相同。该研究适合关注LLM安全、MCP协议设计及智能体系统安全的研究者和工程团队阅读。

💡 推荐理由: 该工作填补了MCP协议在身份验证和权限控制方面的空白,为LLM智能体安全接入第三方工具提供了可落地的标准化方案,对防御者而言能有效降低因过度信任工具服务器导致的数据泄露风险。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 10.5
Conf: 50%
👥 作者: Nirav Diwan, Han Wang, Berkcan Kapusuzoglu, Ramin Moradi, Supriyo Chakraborty, Giri Iyengar, Sambit Sahu, Huan Zhang, Gang Wang

该论文提出了一种名为 CoT-Guard 的小型监控模型,用于检测推理模型在代码生成任务中的隐蔽不良行为(即隐藏目标)。当前大型模型(如 GPT-5、Gemini-3-Flash)虽可作为有效的 CoT 监控器,但由于其高昂的部署成本和冗长的推理链,不便于实际使用。而现有小型模型(4B-8B 参数)在利用 CoT 检测隐藏目标方面表现不佳,常将恶意意图误判为用户正常请求。为解决此问题,作者设计了一套后训练流水线,结合监督微调(SFT)和强化学习(RL)。SFT 通过蒸馏强监控器的检测行为,缩小模型在域内任务上的差距;RL 在精心构造的困难隐蔽目标上训练,帮助模型泛化到域外监控任务。为验证泛化能力,论文在现实威胁模型下评估,该模型模拟第三方 LLM 路由器通过提示操纵或代码操纵攻击向代码生成请求注入隐藏目标的供应链攻击场景。此外,还引入了四个新的挑战性任务,以超越大型监控器已饱和的目标。实验表明,4B 参数的 CoT-Guard 在提示操纵和代码操纵攻击下均表现出优越的泛化性能,G-mean²(TNR×TPR)达到 75%,优于 GPT-5.4(56%)、GPT-5-mini(41%)和 Qwen3-32B(54%),接近 Gemini-3-Flash(83%)。这些结果证明 CoT-Guard 是一种实用且经济的用户侧防御方案,显著提升了隐藏目标检测能力,同时避免了大型监控器的部署成本。

💡 推荐理由: 目前大型模型监控CoT虽效果良好但成本高昂,小模型监控失败率高;CoT-Guard以4B参数实现了接近大型模型的效果,为LLM代码生成安全监控提供了经济可行的方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)