#context-poisoning

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Saeid Jamshidi, Amin Nikanjam, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

本文针对大型语言模型在多轮交互中长期上下文推理的安全性问题展开研究。在多轮对话中,LLM需要维护一个动态演变的上下文,而不仅仅是生成孤立回复,这使得模型容易受到提示注入和上下文投毒攻击——攻击者通过注入局部的看似合理的对抗性片段,逐步扭曲模型的推理轨迹。现有的防御手段主要关注单轮输出过滤,忽视了跨轮上下文的演化,导致长时间跨度的推理暴露在风险中。虽然模型上下文协议(MCP)标准化了上下文交换和工具调用,但它仅作为一个被动的路由层,无法强制执行上下文的稳定性。为此,本文提出了博弈论安全模型上下文协议(GT-MCP),一种控制器驱动的多智能体方法,将上下文管理视为一个闭环动态过程。GT-MCP协调三个异构的LLM智能体,并通过一个信任函数选择输出,该函数联合评估:输出的因果一致性与已验证的上下文图的匹配程度、智能体间的语义一致性,以及随时间的分布漂移。当检测到不稳定性时,一个基于回滚的自我修复机制会恢复已验证的上下文,阻止未受支持的片段传播。在自适应对抗威胁模型下,对500轮交互的实证评估表明:99.6%的轮次中上下文漂移保持有界,仅0.4%的轮次需要恢复;每轮效用高度集中(中位数-0.19,P05=-0.72,P95=0.30),严重退化(低于-1)仅占0.4%;在控制器层面没有注入攻击成功;选定输出的胜率稳定在98%以上;计算开销可预测,每token延迟为1.63e-3秒。

💡 推荐理由: 本文提出了一种新颖的基于博弈论的多智能体控制方法,在LLM长期对话中主动防御上下文投毒和提示注入攻击,填补了现有防御仅针对单轮输出的空白,对部署LLM应用的蓝队具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)