#jailbreak-detection 主题 - Cyber Security Daily Radar

👥 作者: Hangtao Zhang, Yucheng Zhao, Sishun Liu, Ziqi Zhou, Zeyu Ye, Wei Wan, Minghui Li, Shengshan Hu, Yanjun Zhang, Yi Liu, Leo Yu Zhang

本文针对大型语言模型（LLM）面临的越狱攻击（jailbreak attacks）问题，提出了一种新的检测方法——流形轨迹动力学（Manifold Trajectory Kinetics, MTK）。现有检测方法通常依赖固定的度量空间（如原始输入、梯度或隐藏特征），假设良性提示与越狱提示在该空间中线性可分。然而，这种假设在面对两类场景时失效：（1）伪恶意提示（pseudo-malicious prompts），即意图良性但包含安全相关关键词的提示；（2）自适应攻击（adaptive attacks），即明确针对检测器优化的攻击。为解决该问题，作者将视角从寻找通用度量空间转向分析底层数据流形的邻域结构。MTK将LLM视为一个将输入转化为输出的动力学系统，通过追踪提示（prompt）的邻域结构在各层间的演化来检测越狱。具体而言，良性提示在推理过程中始终与良性邻域保持接近，而越狱提示则表现出特征性轨迹：初始靠近恶意种子，随后策略性地向良性邻域移动以逃避拒绝机制。实验在四个LLM和十种越狱攻击上进行，结果显示MTK对两类失效模式均具有强鲁棒性：在伪恶意提示上，以良性提示5%假阳性率和伪恶意提示2%假阳性率实现95%真阳性率；在自适应攻击下保持85%真阳性率。此外，MTK在视觉语言模型的越狱检测中也表现出优越性能。

💡 推荐理由: LLM部署时越狱检测是安全关键，现有方法易被伪恶意提示和自适应攻击绕过，MTK通过分析流形轨迹的创新思路显著提升了鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Zheng Lin, Zhenxing Niu, Haoxuan Ji, Yuzhe Huang, Haichang Gao

该论文提出了一种针对大型语言模型（LLM）的越狱提示检测方法，旨在防御越狱攻击。尽管当前LLM已内置安全机制，但攻击者仍可能构造绕过这些机制的越狱提示。作者认为此类越狱提示本质上具有脆弱性，因此引入了一种嵌入扰动（embedding disruption）方法，通过重新触发LLM内部的安全机制来检测越狱提示。与以往将防御方法作为独立解决方案的做法不同，该方法通过与LLM内部防御机制协同工作，通过重新激活它们来实现检测。通过大量分析，作者深入理解了扰动效应，并开发了一种高效的搜索算法来识别适当的扰动，以实现有效的越狱检测。实验表明，该方法在白盒和黑盒设置下均能有效防御最新的越狱攻击，并且即使面对自适应攻击也保持鲁棒性。该方法适用于需要增强LLM安全性的场景，尤其适合安全研究人员和AI开发者。

💡 推荐理由: 该方法创新性地利用LLM自身的安全机制进行越狱检测，无需额外外部模型，提升了防御的鲁棒性和效率。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nay Myat Min, Long H. Pham, Jun Sun

大型语言模型在运行时可能表现出各种异常行为，例如训练时注入的后门在触发词下被激活、越狱攻击绕过安全对齐、提示注入覆盖部署者指令。现有的运行时防御通常针对单一威胁，且依赖干净参考模型、触发知识或可编辑权重，这些假设对不透明的第三方模型往往不成立。本文提出层间收敛指纹（Layerwise Convergence Fingerprinting, LCF），一种无需调优的运行时监控方法。LCF将模型的层间隐藏状态轨迹视为健康信号：对每一层间的差异计算对角马氏距离，通过Ledoit-Wolf收缩聚合，并在200个干净样本上使用留一法校准阈值，无需参考模型、触发知识或重新训练。在四个架构（Llama-3-8B、Qwen2.5-7B、Gemma-2-9B、Qwen2.5-14B）上针对后门、越狱和提示注入三类威胁进行评估（56种后门组合、3种越狱技术、BIPIA邮件和代码问答任务），LCF将Qwen2.5-7B和Gemma-2的平均后门攻击成功率降至1%以下，Qwen2.5-14B降至1.3%；检测92-100%的DAN越狱（GCG和角色扮演为62-100%）；在所有（模型、领域）的8个单元格中100%标记文本载荷注入；后门误报率12-16%，推理开销小于0.1%。单个聚合分数即可覆盖全部三类威胁，无需针对具体威胁进行调整，使LCF成为云服务和设备端LLM的通用运行时安全层。

💡 推荐理由: 提供一种无需修改模型、轻量级的运行时异常检测方法，可同时防御后门、越狱和提示注入，适合保护部署在黑盒或第三方LLM中的应用。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#jailbreak-detection

Defending Jailbreak Attacks on Large Language Models via Manifold Trajectory Kinetics

Re-Triggering Safeguards within LLMs for Jailbreak Detection

Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models