#jailbreak-defense 主题 - Cyber Security Daily Radar

👥 作者: Zhongyang Lin, Ziran Zhao, Feifei Zhai, Pengyuan Liu

这篇论文提出了 NeuroArmor，一种针对大型语言模型（LLM）的越狱攻击白盒运行时防御方法。现有防御通常对所有提示采用相同策略，导致在安全性和有用性之间难以平衡，容易误伤良性敏感请求。NeuroArmor 针对每个输入提示生成多个安全变体（如无害化改写），作为局部安全参考。在隐藏状态空间中，将原始提示状态与这些安全变体进行比较，通过一致性检查判断提示是否异常。若异常，则路由到拒绝分支或恢复分支：对恶意提示直接拒绝，对边界良性提示进行修复后输出。在 Llama-3-8B-Instruct 上的实验表明，NeuroArmor 将恶意攻击成功率从 41.56% 降至 1.57%，同时良性误报率从 30.26% 降至 22.05%，优于多个基线。外部评估显示未被拦截的响应也极少产生操作性危害。该方法的核心贡献在于提示专用的一致性检查与选择性干预机制，有效兼顾安全与可用性。

💡 推荐理由: 当前越狱攻击手段多样且隐蔽，现有防御常因过站误拦或漏检而失效。NeuroArmor 通过细粒度、提示特异的局部参考实现安全与有用性的更好平衡，对提升 LLM 的实际部署安全性具有直接借鉴意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Luoyu Chen, Weiqi Wang, Zhiyi Tian, Chenhan Zhang, Feng Wu, Jianhuan Huang, Ahmed Asiri, Shui Yu

该论文针对大型语言模型（LLM）面对越狱提示（jailbreak prompts）时的安全对齐问题展开研究。现有安全引导（safety steering）方法在测试时通过激活干预将越狱激活引导至拒绝区域，同时保持良性功能，但这些方法本质上是监督式的，且依赖于静态的有限训练集。当出现训练集中未见过的新型越狱攻击时，由于激活分布偏移（out-of-distribution），这些方法往往失效。为解决对未见越狱攻击的防御失败问题，论文提出了一种基于无监督潜在方向发现的双层对抗训练框架（Bi-level Adversarial Training），用于零样本越狱防御。在内部步骤中，通过无监督潜在方向发现，从拒绝态有害请求激活（refusal-state harmful-request activations）中外推（extrapolate）模拟多种多样的越狱激活，从而扩展对真实越狱激活子空间的覆盖范围。在外部步骤中，训练一个势诱导引导场（potential-induced steering field），将这些对抗性越狱状态推回拒绝区域，同时保持良性请求的激活不变。在三个不同规模的LLM和六个经典越狱攻击家族上评估，该方法在大多数情况下将攻击成功率（ASR）降至5%以下。训练过程中子空间覆盖率的不断提升解释了泛化能力增强的原因。该工作为LLM安全对齐提供了新的防御思路，尤其适用于应对动态演化的未知越狱攻击。

💡 推荐理由: 当前LLM安全防御多针对已知攻击，面对未知变种效果不佳。本文提出的无监督模拟加对抗训练方法能零样本泛化，显著提升对未见越狱攻击的鲁棒性，为实际部署LLM提供更可靠的安全保障。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Kemal Derya, Berk Sunar

本文针对大型语言模型（LLM）的越狱攻击防御展开研究，重点重访了近期提出的JBShield防御机制。JBShield通过检测两种概念信号（毒性概念和越狱概念）来识别恶意提示，在部分设置下声称攻击成功率为0%。然而，本文设计了一种新的自适应攻击方法JB-GCG，它修改了贪婪坐标梯度（GCG）攻击的目标函数，结合了两个项：一是通过计算拒绝方向与隐藏状态表示的余弦相似度来抑制拒绝方向，二是利用JBShield自身的毒性概念分数进行正则化。在Llama-3-8B模型上的五种配置中，JB-GCG实现了平均46.2%的攻击成功率，最强设置下达到53.4%。攻击对JBShield的增强版本JBShield-M同样有效，成功率高达30.7%。实验表明，该攻击在多次重新校准后依然有效，确认了漏洞是结构性的而非校准特定。进一步分析发现，越狱表示的余弦相似度特征在拒绝方向指纹空间中占据了一个独特区域，既不属于无害提示也不属于有害提示。基于此，作者提出了表示轨迹验证（RTV）新防御方法，利用多层拒绝方向指纹进行马氏距离异常检测，对提出的攻击实现了0.99的AUROC。最后，作者设计了针对RTV的完全白盒自适应攻击，最佳攻击在计算成本增加13倍的情况下仅达到7%的成功率。结果表明，非自适应检测的强性能并不意味着在自适应威胁模型下具有鲁棒性，多层表示一致性比单层概念相似性更适合作为越狱检测的基础。

💡 推荐理由: 该研究揭示了现有越狱防御在自适应攻击下的脆弱性，强调了评估防御时必须考虑自适应威胁模型，为LLM安全社区提供了更可靠的防御设计方向。

🎯 建议动作: 建议安全研究人员阅读原文，了解自适应攻击细节，并评估自身LLM防御系统对类似攻击的鲁棒性。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Bowen Sun, Chaozhuo Li, Yaodong Yang, Yiwei Wang, Chaowei Xiao

该论文针对大语言模型（LLM）面临的分解式越狱攻击提出了一种新型防御框架。分解式越狱攻击通过将恶意目标拆分为一系列看似无害的查询，使攻击者能够绕过安全防护，累积重构出被禁止的内容。在实际部署中，LLM面对连续、不可追溯的匿名请求流，其中混杂着隐蔽分布的对抗性查询，现有防御策略在无可靠用户元数据时无法跟踪全局历史上下文，且基于生成模型的实时监控计算开销过大。为此，作者提出TwinGate，一种状态ful双编码器防御框架。TwinGate采用非对称对比学习（ACL），将语义不同但意图匹配的恶意片段在共享潜在空间中聚类，同时利用并行的冻结编码器抑制良性主题重叠导致的误报。每个请求仅需一次轻量级前向传播，可在目标模型填充阶段并行执行，延迟开销可忽略。为评估方法并推动未来研究，作者构建了包含超过362万条指令、覆盖8600种恶意意图的综合数据集。在严格因果协议下的大规模语料评估中，TwinGate实现了高恶意意图召回率和极低的误报率，且对自适应攻击具有强鲁棒性。相较于有状态和无状态基线，该方法在吞吐量和延迟方面均显著优于同类方案。该研究适合LLM安全研究人员、AI红队成员以及致力于构建实用防御机制的工程师阅读。

💡 推荐理由: 分解式越狱攻击是当前LLM安全中的隐蔽威胁，TwinGate提出了一种高效的状态ful防御方案，在不依赖用户身份的前提下实现高精度检测，对实际部署场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#jailbreak-defense

NeuroArmor: Safe-Variant-Guided Representation Consistency for Selective Re-Anchoring in Jailbreak Defense

Steering Beyond the Support: Adversarial Training on Unsupervised Jailbroken Activation Simulation

Revisiting JBShield: Breaking and Rebuilding Representation-Level Jailbreak Defenses

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning