本文针对大型语言模型(LLM)面临的越狱攻击(jailbreak attacks)问题,提出了一种新的检测方法——流形轨迹动力学(Manifold Trajectory Kinetics, MTK)。现有检测方法通常依赖固定的度量空间(如原始输入、梯度或隐藏特征),假设良性提示与越狱提示在该空间中线性可分。然而,这种假设在面对两类场景时失效:(1)伪恶意提示(pseudo-malicious prompts),即意图良性但包含安全相关关键词的提示;(2)自适应攻击(adaptive attacks),即明确针对检测器优化的攻击。为解决该问题,作者将视角从寻找通用度量空间转向分析底层数据流形的邻域结构。MTK将LLM视为一个将输入转化为输出的动力学系统,通过追踪提示(prompt)的邻域结构在各层间的演化来检测越狱。具体而言,良性提示在推理过程中始终与良性邻域保持接近,而越狱提示则表现出特征性轨迹:初始靠近恶意种子,随后策略性地向良性邻域移动以逃避拒绝机制。实验在四个LLM和十种越狱攻击上进行,结果显示MTK对两类失效模式均具有强鲁棒性:在伪恶意提示上,以良性提示5%假阳性率和伪恶意提示2%假阳性率实现95%真阳性率;在自适应攻击下保持85%真阳性率。此外,MTK在视觉语言模型的越狱检测中也表现出优越性能。
💡 推荐理由: LLM部署时越狱检测是安全关键,现有方法易被伪恶意提示和自适应攻击绕过,MTK通过分析流形轨迹的创新思路显著提升了鲁棒性。
🎯 建议动作: 研究跟进