#jailbreak 主题 - Cyber Security Daily Radar

👥 作者: Xingkai Peng, Jun Jiang, Jiayang Liu, Kejiang Chen, Weiming Zhang

本文提出了一种针对文本到视频（T2V）生成模型的新型越狱攻击框架BSB（Between Safe Boundaries）。现有从文本到图像攻击迁移而来的方法未能充分利用视频生成中固有的时间一致性特性，且需要大量视频查询优化，在实际黑盒场景中不可行。BSB通过将有害意图编码为两个单独无害的边界状态之间的过渡来利用时间一致性：攻击目标是那些插值会在视频生成过程中产生不安全中间帧的边界状态对。为了避免直接评估视频空间中所有候选对的高昂计算成本，BSB在廉价的文本代理空间中进行蒙特卡洛树搜索（MCTS），并定期用稀疏的视频级评估校准搜索结果。在主流商业T2V模型（包括Veo 3.1、Sora 2、Seedance和Kling v1）上的实验表明，BSB在攻击成功率上平均超过现有最强基线18.6%。研究发现，时间一致性是T2V模型一个未被充分研究但至关重要的攻击面，结构化搜索有助于在有限的查询预算下有效发现漏洞。

💡 推荐理由: 揭示了文本到视频模型特有的时间一致性攻击面，现有防御可能无效，为T2V安全研究提供了新方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Torsten Krauß, Hamid Dashtbani, Alexandra Dmitrienko

大型语言模型（LLM）在翻译、代码生成等任务中表现出巨大优势，但同时引入了社会风险，恶意用户可通过有害提示（如请求非法活动指导）利用模型。为缓解此问题，模型通常内置安全机制自动拒绝此类提示。然而，现有越狱方法常需大量人工、高计算成本或导致模型过度修改而影响常规效用。本文提出TwinBreak，一种创新的安全对齐移除方法。基于安全机制类似嵌入式后门的观察，TwinBreak识别并剪除负责该功能的参数。通过聚焦最相关的模型层，TwinBreak对模型效用和安全性的关键参数进行细粒度分析。TwinBreak是首个通过分析具有高度结构和内容相似性的提示的中间输出来隔离安全参数的方法。作者构建了包含100对“双胞胎提示”的TwinPrompt数据集。实验在来自五家供应商的16个LLM上进行，成功率89%至98%，且计算需求极低。该方法揭示了现有安全对齐的脆弱性，对LLM安全研究具有重要警示意义。

💡 推荐理由: TwinBreak以极低计算成本高效移除LLM安全对齐，成功率高达89%-98%，揭示了安全机制的可分离性，对防御者设计更鲁棒的对齐策略至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Roman Prosvirnin, Victor Minchenkov, Alexey Soldatov, Vladimir Bashun

该论文提出了一种名为 JADR（Jacobian Assessment of Danger Recognition）的新型协议，用于评估大语言模型（LLM）对越狱攻击的鲁棒性。与传统的基于LLM作为评判者的方法不同，JADR通过分析模型在生成第一个响应token之前的内部表示（即Jacobian空间，简称J-space）来直接探测模型对危险内容的识别能力。具体而言，对于每个输入提示和模型层，JADR记录top-k J-space tokens，并将其映射到六个行为情景轴；然后比较危险样本（基于StrongREJECT）和安全控制样本（来自XSTest和OKTest）在这些轴上的差异。该方法完全在待评估模型的激活值上本地运行，无需外部评判模型，因此可以公平地比较不同模型之间以及同一模型的不同修改（如量化、微调）。论文提出了SafetyAUC指标，并辅以bootstrap置信区间。实验涵盖了六个模型（Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-Uncensored-4B、Qwen3-SafeRL-4B、Gemma 2 9B）在BF16、INT8和INT4三种权重表示下的表现，并与StrongREJECT评判器的独立行为评估进行了对比。结果表明，该指标能够以统计显著性区分具有强内部安全机制和弱内部安全机制的模型，并捕捉到不同量化制度下的实质性差异。这项研究为评估LLM安全性提供了一种新的内部表征视角，有助于更深入地理解模型安全机制的稳健性。

💡 推荐理由: 该研究提供了一种无需外部评判模型即可评估LLM内部安全机制的方法，能更直接地揭示模型对越狱提示的脆弱性，有助于开发更鲁棒的安全对齐技术。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Alex Kwon

该论文对一种名为“Prefill Jailbreak”的越狱攻击进行了深入的机制研究。在这种攻击中，攻击者只需在提示开头添加一行预填充文本（例如“Sure, here is”），就能使经过安全对齐的大语言模型放弃拒绝回答有害请求的行为。论文首先通过线性探针实验发现，即使在模型被成功越狱的情况下，模型内部对“有害性”的表示（harm representation）依然保持完整：在那些本应被拒绝但实际却输出有害内容的提示上，线性探针从模型内部表示读取到的有害性分数依然很高（0.91-0.98），与拒绝状态下相当。这说明拒绝机制并非由模型深层对有害性的感知决定，而是一个发生在响应生成阶段的浅层计算。然后，通过剂量匹配的位置控制实验，论文将拒绝机制的失效定位到响应生成的前半部分：扰动早期一半的响应生成就是以破坏拒绝行为，而对后半部分的干预几乎无效。进一步，论文采用了三种因果探针方法（包括注意力掩码、表示方向干预和注意力抑制）确认了这一关键窗口。具体地，通过恢复早期响应中“有害性”方向的部分表示，可以部分重新激活拒绝行为；而注入模型在拒绝状态下的内部表示，则能逆转越狱效果（在留出测试集上达到74%的成功率）。此外，通过敲除早期响应部分对预填充token的注意力，而非其他等量注意力的位置，可以特异性破坏有害内容的继续生成。作为对比，在未经安全微调的基础模型上进行同样实验，发现同样的敲除操作同样会特异性破坏预填充后的有害内容生成（有害内容从64%降至25%，而对照组的64%保持不变）。这表明预填充token的强制作用本质上是通用的自回归条件概率（即模型倾向于延续输入前缀的分布），而非安全特定的抑制解除。因此，论文认为“拒绝恢复”是一种依赖于模型的回退机制，而主导的越狱机制是被动的（即模型自然地顺应预填充）。论文还发现存在一个微小的安全特定吸引子（logit-trace集中度0.24 vs 0.03），但未能完全分离其主动与被动成分。最终结论是：拒绝决策在表示空间中是可解码但分布式存储的，不存在一个单一的“拒绝神经元”或方向；拒绝机制跟踪的是有害性而非表面的“危险”词汇。这一研究的实际含义是：如果监控系统只读取提示端的表示，那么它天然就会对这类响应级攻击免疫，但这也意味着检测手段必须关注响应生成过程；整个机制是弥散的，但攻击的失败界面是局部的（集中在响应早期）。本文适合大模型安全研究人员、AI对齐技术开发者以及红蓝队成员阅读。

💡 推荐理由: 该研究揭示了对齐大语言模型拒绝机制的本质弱点：拒绝是响应阶段的浅层计算，攻击者只需操控模型生成的初始部分即可绕过。这种机理洞察对于设计更鲁棒的安全检测和防御策略至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Chigozirim Ifebi, Brent Kong, Ayushi Mehrotra

该论文提出了一个名为Minionese的多语言大语言模型安全对齐基准测试，覆盖18种语言、4个资源层级和4种扰动类型（标准翻译、代码切换、音译、翻译腔）。研究发现，不同扰动类型会产生不同的安全漏洞轮廓：音译漏洞受文字系统身份影响，代码切换在最低资源层级仍保持有效性，而在所有模型中都观察到资源层级2和3之间存在明显的安全机制转变。从机制上分析，低资源语言的越狱成功是因为将有害内容通过几何上未对齐的子空间路由，该子空间在拒绝方向上投影不足，导致拒绝机制完好但未被触发。结果表明，仅进行英语安全评估是不够的，需要考虑文字家族、扰动类型和每种语言的对齐覆盖。论文提供了基准测试和分析代码。适合LLM安全研究人员、多语言NLP从业者阅读。

💡 推荐理由: 揭示了当前LLM安全对齐在多语言场景下的系统性脆弱性，尤其是低资源语言的攻击面，对构建真正鲁棒的多语言安全防护具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Anupam Wagle, Ifrat Ikhtear Uddin, Chaowei Zhang, Longwei Wang

大型语言模型（LLM）尽管能力强大，但仍极易受到对抗性提示和越狱攻击。现有研究主要通过输入-输出行为或归因方法分析这些失败，对对抗性扰动如何改变模型内部推理机制的洞察有限，导致对不安全或错误行为背后的机制理解不足。本文提出了一种基于内部计算图的机制性可解释性框架，用于诊断LLM的脆弱性。该框架将特定提示的推理过程表示为潜藏特征之间的结构化因果交互，称为内部计算图。通过构建并对齐干净提示和攻击提示的计算图，揭示对抗性攻击会系统地转变内部推理，包括抑制安全相关组件、出现攻击特有特征以及重定向计算路径。基于此表示，作者提出了一个统一框架，该框架能够：（i）将计算分解为不变、抑制和涌现结构；（ii）识别与失败模式相关的重复脆弱性模式；（iii）对节点、路径和子图进行因果干预，直接评估它们对攻击成功的贡献。这使得从描述性归因过渡到对模型失败的因果诊断成为可能。在多个开源LLM及多种对抗和越狱基准上的实验表明，内部计算图的结构偏差与不安全行为强相关。此外，对识别的脆弱性模式进行有针对性的干预可提高模型鲁棒性，从而将内部计算图确立为理解、诊断和缓解LLM脆弱性的原则性基础。

💡 推荐理由: 本文首次通过内部计算图机制性解释LLM越狱攻击，为理解模型脆弱性根源提供了因果视角，有助于开发更鲁棒的安全机制。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peilin Han, Yang Liu, Yilong Yang, Jingchun Zhang, Teng Li, Jianfeng Ma, Zhuo Ma

本文对野外（in-the-wild）文本到图像（T2I）模型的安全性进行了大规模实证研究。现有关于T2I越狱（jailbreak）的安全研究大多在受控实验室环境下进行，通常只针对少量经典模型，因此快速增长的野外T2I生态系统当前的安全状况尚不清楚。这种不确定性因两个因素而加剧：现有的基于检测器的指标是为受控评估而设计的，且野外风险不仅可能来自对抗性提示，还可能来自不安全的发布实践和不安全的模型衍生品。本文通过越狱的视角对野外T2I安全性进行了大规模实证研究。首先，作者发现仅使用检测器的越狱指标由于语义漂移和生成伪影，会显著高估野外实际风险，并提出了Advanced ASR（高级攻击成功率）指标，以更好地捕获语义有效且视觉上可信的不安全生成。使用这一改进指标，作者在三种代表性越狱攻击下评估了来自Hugging Face的200多个野外T2I模型。结果表明，许多下游模型即使没有明确的事后防护措施，仍保留了相当程度的安全性，表明野外安全性退化既非普遍也非均匀。同时，作者识别出一组高风险模型，包括明确面向NSFW的发布以及看似良性但通过系统评估才暴露不安全行为的模型。作者进一步追溯这些模型的发布背景，并向Hugging Face报告了高风险案例。

💡 推荐理由: 揭示了T2I模型在野外环境下的真实安全风险，修正了现有评估方法的偏差，为安全从业者提供更准确的威胁评估依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Samira Hajizadeh

本文发现大型语言模型的安全对齐高度依赖于语用语境（pragmatic register），即模型对直接有害请求的拒绝并不能泛化到相同底层意图但不同语用表述的请求上。作者提出了一种名为“回溯式思维链”（RetroCoT）的单轮攻击方法，该方法将有害请求重新表述为法医重建任务：假设有害结果已经发生，要求模型以法医分析师的身份逆向重构导致该结果的因果链。实验在AdvBench子集（n=50）上进行，RetroCoT对gpt-4o的攻击成功率为58%，对gpt-4o-mini为52%，而直接请求基线分别为0%和4%。进一步分析揭示了模型代际间的显著差异：GPT-5系列模型完全拒绝RetroCoT，并在拒绝理由中明确指出重建前提，表明该语用形式已显式覆盖。然而，这种鲁棒性无法泛化到其他语用形式：单轮对抗性反馈（提供现成法医重建响应及评估者批评）在GPT-5.4-mini上将ASR从0%提升到48%，在GPT-4o上从58%提升到94%；控制条件（仅提供重建响应，省略低分）在GPT-5.4-mini上实现85%的ASR，表明关键因素是语用延续（pragmatic continuation）而非分数操纵。这些结果表明，前沿模型的安全对齐仍受语用框架制约，而非语义意图，新的语用注册表（pragmatic registers）可能继续暴露对齐漏洞。本研究适用于LLM安全研究者和防御者，提示现有安全评估方法需覆盖多样的语用表达方式。

💡 推荐理由: 揭示了LLM安全对齐的深层脆弱性：模型拒绝机制仅针对特定语用形式，而非语义意图，攻击者可通过变换语用框架轻易绕过。这对安全评估的设计和防御策略的构建具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Haoyu Zhang, Yangyang Guo, Mohan Kankanhalli

该论文提出了一种针对大型视觉语言模型（LVLM）的新型越狱攻击方法，名为信息过载（Information Overloading）。LVLM 在个人助理、文档分析、具身智能等场景广泛应用，但其双模态攻击面（视觉和文本）易受越狱攻击。现有攻击方法通常采用简单设计，如短文本和分布外图像，但随着大语言模型骨架和多模态机制的进步，这些攻击的可迁移性显著下降。为克服此限制，作者提出同时利用扩展文本和多维图像攻击的信息过载方法。具体而言，该方法通过递归式图像-排版布局，将文本和图像攻击组件组合，指数级增加多模态信息复杂度。这种过载方式放大了所需的跨模态处理，从而破坏 LVLM 的安全对齐。在开源和商业 LVLM 上的大量实验表明，该方法达到了最先进的越狱攻击效果：开源模型平均攻击成功率（ASR）为 88.6%，商业 LVLM 平均 ASR 为 84.0%，超过最佳基线 48.7%。此外，在开源替代模型上优化的提示能够有效跨模型族迁移。实验还通过探测受害 LVLM 中安全关键信息流，发现复杂的图像-排版组合会引发强化的跨模态处理，并降低模型生成拒绝响应的确定性。这些发现凸显了信息过载作为实际且新兴的安全风险，需要针对复杂多模态越狱输入加强防御。

💡 推荐理由: 该攻击揭示了当前LVLM安全对齐在复杂多模态输入下的脆弱性，信息过载可绕过大多数现有防御，对实际部署的视觉语言模型构成严重威胁，值得安全从业者高度关注。

🎯 建议动作: 关注该攻击模式，评估内部LVLM模型的安全性，研究针对复杂多模态越狱输入的防御策略。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Junlong Liu, Haobo Wang, Weiqi Luo, Xiaojun Jia

该论文揭示了大型语言模型（LLM）在支持函数调用的状态ful环境中存在的一种结构性安全漏洞。在此类系统中，开发者定义的函数schema、结构化参数以及不可信的工具输出被混入同一个共享模型上下文，导致可信控制逻辑与不可信数据间的边界模糊，攻击者可利用多轮执行路径分布式注入恶意意图。作者提出一种名为SMT（Simulated Moderation Traces）的黑盒攻击框架，该框架不依赖纯提示交互，而是构造一条模拟合法审核工作流的多轮轨迹：首先捏造一个审核帧，以红队测试为借口诱导模型生成有害内容；随后利用验证反馈将安全拒绝视为执行失败，促使模型逐步弱化安全约束，最终输出有害结果。在来自五个不同提供商的商业LLM及两个标准化安全基准上的实验表明，SMT在攻击成功率与HarmScore上持续达到最高，且查询次数接近最少，大幅超越现有基线。论文强调，仅靠提示级清理无法防御此类系统，急需对schema、参数、工具输出及累积对话状态进行上下文感知的验证。

💡 推荐理由: 该研究首次指出函数调用LLM的结构性漏洞，证明仅提示级防御完全不足，安全团队需重新评估集成工具调用的LLM系统的安全边界。

🎯 建议动作: 纳入内部评估

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Lan Zhang 0002, Xinben Gao, Liuyi Yao, Jinke Song, Yaliang Li

该论文针对大型语言模型（LLM）面临的任务级越狱攻击威胁，提出了一种自动化的基准测试框架。研究首先系统性地定义了任务级漏洞的概念，即攻击者通过构造特定任务输入诱使LLM执行非预期行为。作者设计了一种基于对抗性提示生成的自动化攻击方法，能够在不依赖人工参与的情况下发现LLM在各类任务中的脆弱点。同时，论文还构建了相应的防御基准，包括输入过滤、输出检测和模型微调等多种策略的评估。实验在多个主流LLM（如GPT-4、Llama等）上展开，结果表明现有模型在面对任务级攻击时存在显著的失败率，而所提出的防御措施能在一定程度上缓解风险。主要贡献包括：形式化了任务级越狱攻击的威胁模型；提供了一个可复现的自动化攻击与防御评测平台；揭示了当前LLM在任务安全性方面的不足。该工作为LLM安全测评提供了实用工具，有助于推动更鲁棒的防御机制研发。

💡 推荐理由: 该研究提出了针对LLM任务级越狱攻击的自动化基准，填补了当前安全评估中缺乏系统化、可重复评测的空白，对安全从业者理解并防御此类威胁具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yanchen Yin, Dongqi Han, Linghui Li

本文研究大语言模型在越狱攻击下的内部机制。作者发现攻击并未完全消除模型的安全特征，而是选择性抑制特定注意力头。通过分析，识别出两类功能分化的注意力头：早期层中的“对抗妥协头”（ACH），在攻击下被抑制；以及中间层的“安全对齐头”（SAH），即使在攻击成功时仍保持鲁棒激活。消融实验证实ACH的因果作用以及SAH对鲁棒激活的贡献：抑制少量ACH足以在正常拒绝的输入上诱导类似越狱的行为，而移除SAH会显著削弱中间层的安全激活。令牌级归因进一步显示，ACH抑制由攻击模板令牌驱动，解释了攻击如何通过抑制ACH绕过拒绝决策，同时SAH维持内部安全信号——作者称之为“鲁棒有害特征”。为验证鲁棒性的实际意义，作者展示仅需读取这些持续激活（无需训练）即可获得与强对抗鲁棒性方法相当的聚合检测性能。该方法为理解越狱攻击的机制提供了新视角，并为鲁棒安全检测提供了潜在方案。适合大模型安全研究人员、红蓝队工程师阅读。

💡 推荐理由: 揭示了越狱攻击下大模型内部安全机制的脆弱性与鲁棒性并存，为设计更鲁棒的防御和检测方案提供新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Prarabdh Shukla, Ritik, Suhas Rao, Arpit Agarwal, Arjun Bhagoji

本研究探讨了非专业恶意行为者是否能够利用广泛传播的越狱攻击手段，成功诱导大型语言模型（LLM）输出有害内容。为此，作者提出了一种基于多臂老虎机（multi-armed bandit）框架的新型攻击策略。该策略允许攻击者通过少量查询的噪声探索，从大量候选越狱方法中在线学习最优策略，随后在利用集上大规模应用。此外，作者构建了FrankensteinBench基准测试，包含11,279个恶意查询，这些查询来自7个现有安全基准的精心整理，并经过自动化增强和生成。每个查询根据所需技术专长分为简单或复杂类别。实验表明，在15个最先进的开源LLM上，该基于老虎机的攻击平均成功率达到97%。进一步发现，增加查询复杂性可使平均攻击成功率提升高达26%。研究结论证实了非专业行为者利用现有越狱方法和复杂查询组合构成严重威胁的担忧。

💡 推荐理由: 该研究揭示非专业攻击者借助自动化越狱选择策略即可高成功率攻击主流开源LLM，极大降低了LLM安全威胁的门槛，对业界防护策略提出新挑战。

🎯 建议动作: 研究跟进：关注FrankensteinBench及老虎机越狱方法，更新红队测试策略。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yang Gao

该论文系统性地评估了用于衡量大语言模型（LLM）越狱攻击成功率的自动化裁判（ASR评分器）的可靠性。研究背景是：几乎所有关于LLM越狱和提示注入的论文都报告攻击成功率（ASR），但这些ASR通常由自动化裁判（专用安全分类器或通用聊天模型）打分，而裁判本身的准确性很少被验证。论文使用HarmBench分类器验证集中的596个人工标注样本，将两种裁判家族（专用分类器和LLM-as-judge）与人类多数投票进行比较，然后对裁判进行攻击。研究发现两种裁判在失败方式上截然相反：专用分类器过度标记（精确率0.835，召回率0.974）；三个不同的LLM-as-judge精确率高（0.81-0.94），但召回率波动大（0.06-0.65），导致同一组响应因裁判不同而得到截然不同的ASR。鲁棒性方面，仅添加良性框架而保持有害文本不变的包装器可使LLM-as-judge在57%-100%的情况下被翻转，其中单个拒绝前缀语句就解释了大量翻转（39%-88%）。专用分类器抵抗此类表面攻击（最多6.7%），但针对其开放权重的白盒GCG攻击在很小的优化预算下就翻转了70%的置信真阳性（21/30，95% CI 54%-86%）。双标注员审计确认攻击未破坏有害性：采样的80个翻转案例全部仍包含有害内容。由于报告ASR中来自LLM-as-judge的比例日益增长，许多ASR数字在平均情况下和受刻意压力下都不可靠。论文建议在论文中报告裁判在人工标注切片上的精确率和召回率，报告经裁判精确率校正的ASR，并包含对裁判的对抗性检查。代码已开源。

💡 推荐理由: 当前大量LLM安全研究依赖自动化裁判报告ASR，但裁判自身的可靠性从未被系统性检验。本论文揭示专用分类器和LLM-as-judge双方向都脆弱，可能导致大量已发表结果不可靠，直接冲击整个LLM安全评估的可信度。

🎯 建议动作: 研究跟进：论文提出的裁判校准和对抗检查方法应纳入内部评估流程，建议在提交安全评估结果时同时报告裁判的精确率和召回率。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Leyi Sheng, Han Sun, Zhen Sun, Yuntao Yue, Jinlin Wu, Xinlei He, Jiaheng Wei

本文针对文本到图像（T2I）生成模型越狱评估中存在的复现性和可比性问题，提出了一种自演进论文到管线智能体框架PixJail。当前T2I越狱技术发展迅速，但现有基准和复现工作流难以同步更新；更重要的是，T2I越狱评估并非单次提示级测试，而是一个由多个阶段构成的管线级问题，包括提示转换、图像生成、安全过滤和多模态评判等环节，导致不同论文的结果难以可靠复现和公平比较。PixJail通过以下方式解决该问题：给定一篇T2I越狱论文及可选参考代码，在统一合约下快速构建论文特定的攻击模块和可运行的评估管线，并忠实复现原始实验结果；同时维护一个记忆库，存储论文摘要、攻击演化模式、可复用模板、失败案例及版本化工件，使后续复现工作能够复用先前经验。作者复现了11种代表性T2I越狱方法（包括有代码和无代码论文），在其原始设置下，框架能以极小误差（平均2.1%，中位数0%）准确恢复先前结果。PixJail旨在为未来T2I越狱复现和评估提供统一基础，大幅减少人工工作量。该工作主要面向安全研究社区，特别是关注生成式AI安全评估的从业者。

💡 推荐理由: T2I越狱评估的复现性是生成式AI安全领域的痛点。PixJail提供自动化、可扩展的复现框架，有助于标准化评估流程，提升研究可信度，为防御者跟进最新攻击手法并设计对策提供基础。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nicola Franco

该论文对 Anthropic 开发的两个前沿大语言模型（Fable 5 和 Opus 4.8）进行了系统性的红队测试，评估其对抗自动化越狱攻击的鲁棒性。研究使用 HackAgent 红队框架，生成了数十万次对抗性尝试，覆盖四个自动化越狱攻击家族（包括静态混淆和自适应迭代攻击），针对 7,826 个有害意图，涵盖十类危害分类（如歧视、暴力、非法行为等）。每个表面成功的攻击都经过三个独立法官模型的多数投票重新裁决。结果表明，两个模型能抵御大部分攻击，但残余攻击面比聚合指标所暗示的更大：自适应迭代攻击（尤其是树状攻击）主导了成功率，而静态混淆几乎被完全缓解。最强的树状攻击对 Opus 4.8 的总体意图成功率为 11.5%，而 Fable 5 最差情况仅为 6.1%（单数字）。然而，即使在这些加固配置下，两个模型仍分别产生了 1,620 和 702 个经面板确认的有害完成，涉及所有危害类别，且这些攻击可由攻击模型自动、低成本地在最初一两次优化步骤中完成，无需人类专家参与。论文的合理结论是：即使经过最充分测试的前沿模型，在持续的自动化攻击压力下仍然可以被可靠攻破。该研究强调了当前红队评估中聚合成功率的误导性，并呼吁开发更密集、更具迭代性的评估方法。适合 AI 安全研究人员、大模型开发团队及安全工程师阅读。

💡 推荐理由: 揭示了即使在最先进的安全训练后，前沿大模型仍易受自动化自适应越狱攻击，且成功率远非零。这提醒安全从业者不能依赖静态缓解，而需持续监控和迭代测试。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qi Wang, Chengcheng Wan, Weijia He, Yanqing Li, Hanqi Sun, Xiaodong Gu, Jiangtao Wang

大型语言模型（LLM）在广泛任务中展现出卓越能力，但其安全性因易受对抗性提示攻击而备受关注。本文提出 UNIATTACK，一个面向防御视角的自动化对抗测试框架，旨在系统性地构建高效的黑盒攻击提示。与依赖静态模板或迭代式模型微调的现有方法不同，UNIATTACK 从多种现有攻击中提取最小但高影响力的攻击特征，通过专门的攻击者 LLM 进行优化，并经过自动化精炼过程将这些特征组合成灵活模板。这种以特征为中心的构造方式使得一次性攻击能够跨多个模型和安全类别泛化，为评估 LLM 鲁棒性提供实用工具。实验表明，与基线相比，UNIATTACK 在部署多层防御机制的模型上平均攻击成功率（ASR）提升 64.63%-248.82%，而成本仅为基线的 0.03%-4.96%。该框架已开源。

💡 推荐理由: 该研究从防御者角度构建自动化攻击框架，揭示了现有防御机制的脆弱性，为评估和提升 LLM 安全性提供了高效工具，有助于安全团队主动发现漏洞。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yitong Zhang, Shiteng Lu, Jia Li

大型语言模型（LLM）越来越多地用于代码生成，但可能被滥用以产生恶意代码。语法约束解码（GCD）是一种旨在通过强制语法有效性来提高LLM生成代码可靠性的技术。本文揭示了一个反直觉的风险：这种面向可靠性的技术本身可能成为攻击面。作者提出了一种名为CodeSpear的新型越狱攻击，通过利用GCD诱导LLM生成恶意代码。实验表明，仅应用良性的代码语法约束就能有效越狱LLM。为了应对这一漏洞，作者提出了CodeShield，这是一种安全对齐方法，即使在攻击者控制的语法约束下也能稳健地保持安全行为。CodeShield通过在代码模态中对模型进行对齐，教它在GCD下生成蜜罐代码。这类代码在语义上是无害的（不实现恶意请求），并且结构多样，难以通过语法收紧来抑制。同时，当自然语言可用时，CodeShield仍保留自然语言的拒绝响应。在4个基准测试的10个流行LLM上的实验表明，CodeSpear优于代表性的越狱基线，平均攻击成功率提高超过30个百分点。CodeShield在CodeSpear下恢复了安全性，同时保持了良性效用。这些发现揭示了GCD的基本风险，并呼吁更多关注其潜在的安全影响。

💡 推荐理由: 本文揭示了语法约束解码（GCD）这一被广泛采用的可靠性技术可能被攻击者利用成为越狱LLM的新攻击面，颠覆了安全从业者对GCD安全性的认知，具有重要的安全警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xiaofeng Lin, Yukai Yang, Daniel Guo, Sahil Arun Nale, Charles Fleming, Guang Cheng

该论文针对使用工具的LLM代理（Tool-Using LLM Agents）提出了一种新型的多步越狱攻击方法——上下文碎片化解构攻击（Context-Fractured Decomposition, CFD）。现有的大多数越狱攻击和防御（如Crescendo、Tree of Attacks）都假设防御者能够看到连续的对话上下文，但在实际部署中，LLM代理的管道是碎片化的：工具调用、模块和时间隔离导致执行环境不连续，且工件的来源（provenance）往往未被跟踪。论文形式化描述了这种部署失效模式——来源间隙（Provenance Gap），并研究了可复现的触发方式：CFD攻击将有害行为分解为多个步骤，在早期交互中生成良性外观的中间工件，然后在后续（可能在不同代理实例或工作流阶段）通过单独无害的工具动作组合触发有害行为。攻击风险仅在延迟的工件中介组合（artifact-mediated composition）下显现。作者通过痕迹级诊断对失效模式进行了测量，并提出了可验证的缓解方向——来源血统标记（Provenance Lineage Tagging）。在多个代理系统越狱基准测试中，CFD相比现有最优基线将成功率提升了至多28.3个百分点，且能绕过强单轮审核器。免责声明：论文包含有害或冒犯性语言示例。

💡 推荐理由: 揭示了现有LLM代理安全防御中的盲区——跨上下文、跨步骤的工件溯源缺失，使攻击者能隐蔽地通过无害中间步骤组合出有害行为，对部署于生产环境的工具型代理构成实际威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Rishabh Makwana, Mamta, Deeksha Varshney, Oana Cocarascu

该论文提出了 MLingualFC，一个多语言多模态基准测试基准，旨在评估视觉语言模型（VLM）在跨语言场景下通过结构化流程图进行越狱攻击的脆弱性。尽管已有研究表明流程图等结构化视觉提示可以有效地越狱 VLM，但现有研究大多局限于英语环境。为了填补这一空白，该基准将有害指令编码为五种语言（印地语、旁遮普语、西班牙语、罗马尼亚语和德语）的流程图图像，并评估了多个最先进的多语言 VLM（包括 Qwen2.5-VL、Gemma-4 和 Pangea）在黑盒威胁模型下的表现。实验结果表明，存在显著的多语言安全差距：对于拉丁字母语言，基于流程图的攻击成功率达到较高水平，说明有害内容的视觉编码能够有效绕过跨语言的安全对齐；而对于非拉丁字母语言（如旁遮普语），攻击成功率明显更低，这暗示可能是视觉文本识别能力的局限而非更强的安全对齐。这些发现揭示了当前 VLM 安全机制无法跨语言和模态泛化的问题。论文资源已公开。

💡 推荐理由: 该研究揭示了多语言 VLM 在跨语言越狱攻击下的安全脆弱性，对于部署多语言 AI 系统的安全团队具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Seungwon Jeong, Jiwoo Jeong, Hyeonjin Kim, Yunseok Lee, Woojin Lee

随着大语言模型（LLM）的广泛部署，通过越狱攻击识别其脆弱性变得至关重要。基于优化的攻击（如Greedy Coordinate Gradient, GCG）通常将对抗性token插入到提示的末尾，但固定插入点可能不是最有效的。本文实证研究了提示中可插入token的候选位置（称为“槽位”），发现越狱的脆弱性与槽位选择高度相关。基于此，作者提出脆弱槽位评分（Vulnerable Slot Score, VSS）来量化位置脆弱性，并设计SlotGCG方法：先用VSS评估所有槽位，选出最脆弱的槽位进行插入，然后在这些槽位上运行针对性优化攻击。该方法是一种攻击无关的位置搜索机制，可插拔到任何基于优化的攻击中，仅增加200毫秒预处理时间。在多个模型上的实验表明，SlotGCG显著优于现有方法：与GCG相比，攻击成功率（ASR）提升14%，收敛更快，且对防御方法的鲁棒性更强（ASR比基线高42%）。实现已开源。该研究揭示了LLM在输入位置上的安全盲区，为防御者提供了新的视角。

💡 推荐理由: 揭示LLM安全中常被忽视的输入位置脆弱性，SlotGCG方法可提升越狱攻击效率，迫使防御者关注提示中不同位置的防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Paulo Ricardo Ferreira Neves, Edson Rodrigues da Cruz Filho, Paulo Henrique Eleuterio Falsetti, João Vitor Pavan, Ian Degaspari, Henrique Vieira Laturrague, Patrick Vieira Laturrague, Guilherme Nielsen Dias, Marccello Wilson Perez Berto, Gustavo Voltani Von Atzingen

大型语言模型（LLM）在自然语言处理任务中展现出强大能力，但易受提示注入（PI）和越狱（JB）攻击。此外，现有基准评估可能受到数据污染和部分信息泄露的影响，导致性能估计不可靠。本文提出 GuardNet——一种基于浅层神经网络（BiLSTM）集成（ensemble）的护栏系统，模型参数量约 4700 万。作者假设在对抗场景中，鲁棒性更多依赖于示例覆盖的多样性和阈值校准，而非模型规模。实验结果表明，GuardNet 在盲测 JBB-Behaviors 基准上达到 AUROC=0.747（n=200），在专有基准上（n=50）F1 分数为 0.92，且通过阈值校准和声明部分信息泄露的评估实现。系统在 CPU 上平均延迟约 50 毫秒，适合在成本和基础设施受限的生产环境中部署。尽管与 Mistral-7B 和 Llama-3.1-8B 等大型 LLM 相比，GuardNet 在 F1 和 AUROC 上仍有差距（后者性能更优），但 GuardNet 提供了轻量级、高效的防护方案，为实际部署提供可行选择。

💡 推荐理由: GuardNet 展示了轻量级神经网络集成在对抗提示注入和越狱攻击中的潜力，为资源受限环境下的 LLM 安全防护提供了实际可部署的方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Vincent Limbach, Jonas Dornbusch, David Lüdke, Stephan Günnemann, Leo Schwinn

该论文针对大型语言模型（LLM）的对抗鲁棒性评估缺乏标准化基准的问题，提出了一种新的攻击方法——间接危害优化（Indirect Harm Optimization, IHO）。目前，LLM的越狱攻击评估存在诸多缺陷：攻击设计不完善会导致鲁棒性估计虚高，影响部署风险评估和防御比较。图像分类领域已有AutoAttack等标准化攻击，但LLM领域尚无类似方法，主要因为设计一个同时满足黑盒兼容、适用于任意防御管线、且高效的攻击极具挑战。IHO利用掩码扩散语言模型，通过迭代偏好优化来训练攻击者，仅需对目标模型进行黑盒访问。该方法无需修改即可作为针对个体行为的强自适应攻击，或作为高效的摊销策略迁移到未见的行文和未知目标模型，且无需微调。即使面对分层防御（如Circuit Breaker训练模型结合辅助检测器），IHO在不进行防御特定适配的情况下，攻击成功率也显著优于现有方法。论文将IHO定位为迈向标准化LLM越狱评估的实用步骤，有助于提升未来鲁棒性评估的可靠性。代码和模型已在GitHub和Hugging Face公开。

💡 推荐理由: 该攻击方法无需白盒访问即可高效评估LLM防御有效性，为蓝队和安全工程师提供了一种更接近真实威胁的测试工具，有助于发现现有防御的盲区。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Muberra Ozmen, Subhabrata Majumdar

大型语言模型（LLM）的多轮越狱攻击揭示了当前防护机制的缺陷：它们仅在单个对话轮次上运行，而攻击却作为跨对话的轨迹展开。本文提出从内容转向动态，将对话建模为表示空间中的路径，并探究对抗意图是否在对话早期就被编码在几何结构中。作者引入PsychoPass框架，从嵌入空间的对话轨迹中提取几何特征，以在有害内容产生之前预测潜在攻击。这些特征在朴素分类器中实现了近乎完美的性能，这很大程度上归因于轮次数量作为特征。去除这一混淆因素后，仍存在较小但一致的几何信号，且分类性能不依赖于编码器选择。关键的是，该信号在对话早期出现：仅使用短前缀，攻击结果仍高于随机水平，比基线防护更可靠。支持性理论分析通过长度和形状的分解、基于前缀长度的检测界以及编码器不变性解释了这些发现。结果表明，对抗性对话会留下早期、表示鲁棒的几何指纹，适用于在线监控。

💡 推荐理由: 该研究揭示了多轮对话越狱攻击在早期轨迹中留下的几何指纹，为在线监控提供了新思路，有望弥补现有单轮防护的盲区。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yingzi Ma, Zhengyue Zhao, Xiaogeng Liu, Minhui Xue, Yue Zhao, Chaowei Xiao

本文提出了一种针对扩散大规模语言模型（dLLMs）的黑盒越狱攻击方法MaskForge。dLLMs通过迭代去噪部分掩码序列生成文本，其安全面与自回归LLMs不同：掩码令牌是原生输入，令牌基于置信度而非位置确定，因此有害内容可以通过填充（infilling）并在监控前缀之外诱导。现有越狱方法要么忽略这种原生填充能力，要么使用低多样性的掩码模板，缺乏结构适应性。MaskForge将dLLM红队测试转化为对结构模式库的优化搜索：它抽象成功尝试为可重用模式，使用上置信界（UCB）多臂赌博机算法选择与目标兼容的模式，并在当前库失败时调用评分器引导的回落机制；成功尝试被蒸馏回模式库，实现跨目标的经验积累。在5个公开dLLM和3个基准上，MaskForge的平均攻击成功率达79.3%，相对最强基线提升17.6%；其成熟模式库无需更新即可迁移至AdvBench，攻击成功率达88.2%，相对最强基线提升67%。该研究揭示了dLLM特有的安全风险，为防御者提供了新的攻击面认知。

💡 推荐理由: 扩散LLM在工业界应用渐广，其双向上下文生成机制带来与传统自回归模型不同的安全面。MaskForge首次系统性地利用dLLM的填充能力进行自适应攻击，防御者需了解此类攻击向量以设计针对性防护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Junke Zhang, Jianwei Wang, Sishuo Chen, Yizhang He, Qingshuai Feng, Zhengyi Yang

该论文提出了一种名为MemoAttack的黑盒越狱攻击框架，旨在自动化生成对大型语言模型（LLM）的有效对抗性提示。现有黑盒越狱方法要么依赖样本级启发式搜索，要么通过积累策略池或方法库来利用攻击经验，但缺乏对攻击经验的系统组织和管理。MemoAttack通过三个关键设计解决这一问题：（1）技能结构化记忆建模，将积累的攻击经验抽象为可复用的技能结构化攻击记忆，每个记忆单元将攻击技能与模板、证据和生命周期状态配对；（2）生命周期驱动的记忆演化，通过基于证据的试用、晋升、退休、重新激活、淘汰和存储清理来演化记忆；（3）探索-利用平衡的记忆选择，通过上下文汤普森采样在可靠记忆复用与不确定性驱动的探索之间取得平衡。在AdvBench上的实验表明，MemoAttack实现了98.00%的平均攻击成功率，比最强基线高出16.67个百分点，同时将请求数量减少了45.9%。此外，随着更多样本的记忆积累，MemoAttack的性能持续提升。该研究揭示了攻击经验的有效组织可显著提升越狱攻击的效率与效果，对LLM安全评估具有重要警示意义。

💡 推荐理由: 该工作展示了通过结构化记忆管理可以大幅提升黑盒越狱攻击的成功率（98%）并降低请求成本，揭示了当前LLM安全防御面临的系统性风险，安全团队需关注此类攻击演进趋势。

🎯 建议动作: 研究跟进，评估自身LLM服务对该类攻击的鲁棒性，并关注后续防御方案。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yuan Tian, Bing Hu, Fang Wu, Xiaomin Li, Binghang Lu, Neil Zhenqiang Gong

本文研究了大型视觉语言模型（LVLM）中新兴的“伴随图像思考”（think-with-image）推理范式的安全性，特别是其对多模态越狱（jailbreak）鲁棒性的影响。现有系统已包含多种流程设计，如直接响应生成、纯文本前置回合、视觉状态操作以及显式外部图像工具调用。作者通过实验评估了这些范式在多模态越狱攻击下的鲁棒性，发现显式图像工具交互范式能够显著降低攻击成功率，在多个模型上平均相对降低约30%。这一发现最初令人惊讶，因为即使返回的图像工具输出被手动覆盖或本身看起来不安全，攻击成功率仍然较低，但在纯文本前置回合控制下会恢复到接近直接回答的水平。这表明低攻击成功率并非由返回图像的良性语义或文本图像工具痕迹单独解释。为了解释这一现象，作者引入了图像工具安全向量框架，将图像工具调用建模为隐藏表示向安全相关方向的残差偏移。基于表示层面的分析和激活干预实验支持了这一解释。总体而言，该研究表明显式图像工具交互是提高越狱鲁棒性的一种有前景的设计模式，同时促使对流程特定安全评估的需求。本文适合关注大模型安全、多模态AI系统风险及防御策略的研究者和安全工程师阅读。

💡 推荐理由: 多模态大模型正广泛部署，但其推理流程中的安全隐患尚不明晰。本文系统揭示了“显式图像工具调用”能显著提升越狱鲁棒性，为设计更安全的多模态系统提供了可操作方向，值得安全从业者关注。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xuan Luo, Yue Wang, Geng Tu, Jing Li, Ruifeng Xu

本文提出一种名为 BAIT (Boundary-Aware Iterative Trap) 的三步越狱框架，旨在通过内部披露的方式使大型语言模型泄露恶意内容。该方法首先要求模型识别其保护边界（如内容安全策略），然后让模型细化该边界，最后请求提供详细示例。通过每一步基于模型先前响应的迭代扩展，BAIT将模型自身的推理和一致性倾向转化为披露路径。在 AdvBench、JailbreakBench、AIR-Bench 和 SORRY-Bench 等基准测试上的实验表明，BAIT 在多种顶级大语言模型上均实现了较高的攻击成功率，显著优于传统越狱基线。进一步分析发现：(1) 预防导向的框架显著优于直接知识请求；(2) 细化步骤在披露升级中起关键作用；(3) 前两步有一定概率触发有害内容，同时几乎不触发过滤机制。该研究揭示了现有安全对齐机制的薄弱环节，对 LLM 安全防护具有重要参考价值。

💡 推荐理由: 该研究揭示了当前大语言模型安全对齐机制的漏洞，BAIT 攻击方法利用模型自身推理一致性绕过防护，对基于 LLM 的应用构成潜在威胁，需引起防御者重视。

🎯 建议动作: 研究跟进，评估现有防护机制对此类迭代越狱的抵抗能力，并在内部测试中复现风险场景

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kevin Kuo, Chhavi Yadav, Virginia Smith

该论文研究了当前针对开源权重大语言模型（LLMs）的安全微调防御措施，这些措施旨在防止模型被用于有害目的。然而，预训练的LLMs本身已编码了大量有害知识，这意味着攻击者可能无需额外微调，仅通过提示注入或越狱方式就能诱导模型产生有害输出。论文发现两种简单且低成本的攻击方法——abliteration（通过特定提示模板消除模型的安全对齐）和 prefilling（通过预先填充用户输入来绕过安全过滤）——能够有效绕过现有的安全防御。在BeaverTails、HarmBench和AdvBench三个有害行为评估基准上，这些攻击将针对安全微调模型（如Llama-2-7B）的攻击成功率从低于10%提升至16%-96%不等。为缓解这一漏洞，作者提出了abliteration-resistant tuning (ART)，通过在训练中引入基于abliteration的目标来增强模型抵御上述攻击的能力。实验表明，ART可以将abliteration、prefilling及其组合攻击的成功率降低10%-20%。该工作揭示了开源权重模型的安全评估面比之前认为的更广，防御评估不应仅关注微调攻击，还应包含更多样的攻击策略。

💡 推荐理由: 该研究提醒安全从业者，当前对LLM的安全防护可能被简单、低成本的越狱方法绕过，而无需复杂优化。这要求蓝队和模型部署方在安全评估中纳入更全面的攻击视角，并考虑在模型训练层面加固。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Hayden Helm, Xiaodong Liu, Weiwei Yang

本文研究生成式大语言模型（LLM）对越狱攻击（jailbreak attack）的易感性预测与缓解问题。直接对所有模型配置进行完整评估和优化在实际中不可行，因为可部署的系统数量庞大。为此，作者提出了一种基于模型群体行为几何（behavioral geometry）的框架，通过利用已评估和防御过的模型，实现对群体内新模型的高效易感性预测以及防御策略的有效迁移。该框架首先计算模型在嵌入空间中的行为表征（如对特定探测输入的响应分布），然后构建行为几何结构，使得相似行为的模型在几何上邻近。在预测任务中，利用已评估模型的行为几何，仅需少量探测样本（比完整评估减少约98%）即可达到 0.94 的 AUPRC（面积精确率-召回率曲线）。在防御迁移方面，行为几何指导选择最优的源模型来迁移防御策略，相比同供应商选择，性能提升 2%（p=0.03），并且仅需三个模型即可覆盖整个群体。实验在涵盖 24 个提供商的 79 个模型以及单个基础模型的 100 种系统配置上进行验证，结果对超参数选择和评判器（judge）具有鲁棒性。该工作为大规模 LLM 安全部署提供了一种实用且高效的评估与缓解方法论。

💡 推荐理由: 提供了一种高效预测 LLM 越狱易感性并迁移防御策略的框架，大幅降低评估成本（减少98%探测），对大规模多模型安全运维场景具有直接实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Junxi Chen, Junhao Dong, Xiaohua Xie

本文提出了一种基于自适应探测导向的鲁棒大型语言模型（LLM）越狱方法。现有对比导向攻击依赖于有限且存在固有偏见的对比提示，并需要繁琐的手动调整导向强度，导致鲁棒性和有效性不足。作者借鉴模型提取的思想，通过学习的导向向量逼近理想导向向量，并基于对比激活的统计信息自适应调整导向强度。实验表明，该方法无需额外对比提示或手动调整，显著提升了探测导向攻击的效果和鲁棒性。作为一篇攻击论文，本文旨在揭示强化LLM的薄弱环节，将平均危害分数从6%提升至70%。代码已开源。该研究为安全社区理解LLM对抗攻击的脆弱性提供了新的视角。

💡 推荐理由: 本文揭示了现有LLM防御机制在面对自适应导向攻击时的脆弱性，提示安全团队需要更全面的防御策略。

🎯 建议动作: 建议安全团队关注并评估现有LLM防御机制对自适应导向攻击的鲁棒性，探索动态导向检测与对抗训练等防御手段。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hongyu Cai, Arjun Arunasalam, Yiming Liang, Antonio Bianchi, Z. Berkay Celik

本文针对大型语言模型（LLM）在面对 jailbreak 攻击时易产生不安全响应的问题，提出了一种基于预模型守卫的新型防御架构。现有防御方法分为两类：预模型守卫仅审计用户提示词，但容易漏检（假阴性率高）；后模型守卫同时审计提示词和模型响应，但计算成本高（增加 token 使用量和处理时间）。作者首先系统研究了 jailbreak 攻击从 LLM 到小型语言模型（SLM）的可迁移性，发现关键影响因素（如模型大小、训练数据等）。基于这一观察，他们提出利用 SLM 的投机推理（speculative inference）生成一组草稿响应，然后将原始提示词与草稿响应共同送入现有守卫模型进行安全性预测。实验表明，该方法显著降低了预模型守卫的假阴性率，同时提供了比后模型守卫更高效的选择。论文还包含有害语言示例。

💡 推荐理由: 在 LLM 安全部署中，jailbreak 攻击是重大威胁。本文提出的预模型守卫改进方案平衡了检测准确率和计算效率，为实际部署提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu

本文发现大型语言模型（LLM）的安全对齐机制存在固有脆弱性：模型仅依赖少量稀疏分布的注意力头进行安全监控，导致大部分表示空间缺乏有效监管。作者通过数学建模形式化了文本混淆的有效边界，并利用该边界设计了一种高效的黑盒越狱攻击框架Babel。该方法通过系统化的混淆采样和迭代反馈驱动的分布优化，无需访问模型内部即可实现高成功率攻击。在GPT-4o和Claude-3-5-haiku等前沿商用模型上，Babel在平均40次查询内将攻击成功率分别从41.33%提升至82.67%、从38.33%提升至78.33%，显著优于现有方法。该工作揭示了LLM安全机制的盲区，为红队测试提供了新方法论。

💡 推荐理由: 揭示了LLM安全对齐的深层脆弱性——仅依赖少数注意力头，解释了现有越狱攻击的成功原因，为防御者理解攻击根本原因和改进安全机制提供重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Wenzhuo Xu, Zhipeng Wei, Zonghao Ying, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Quanchen Zou

多模态大语言模型（MLLMs）在接收多图像输入时存在安全隐患。现有越狱方法仅使用单张图像，限制了攻击空间：无法将有害请求分布到多张图像、携带丰富信息或利用额外视觉推理任务分散模型注意力。本文提出一种组合式越狱框架DMN，通过分布式指令（Distributed instruction）、多模态证据（Multimodal evidence）和数字链任务（Number chain task）全面增强越狱效果。分布式指令将有害内容拆解到多张图像中，绕过单图安全审查；多模态证据利用图像与文本的关联构建推理链条；数字链任务强制模型进行数值排序，分散其对危险内容的警觉。实验表明，DMN在GPT-4o、Gemini-2.5-pro和Claude Sonnet 4上攻击成功率超过90%，显著优于现有基准。该框架揭示出当前多模态安全对齐机制在组合式、多图像输入场景下的根本性弱点。研究为多模态AI安全评估提供了新视角，提示开发者在多图像条件下需强化安全对齐策略。

💡 推荐理由: 该研究揭示多模态大模型在多图像输入场景下的安全漏洞，攻击成功率极高，直接影响GPT-4o等主流商业模型的安全性评估，推动安全对齐方案改进。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qiuchi Xiang, Haoxuan Qu, Hossein Rahmani, Jun Liu

该论文旨在探索一种被忽视的越狱攻击场景——宽网投射（wide-net-casting），即攻击者并非只针对单个大语言模型，而是同时查询一组模型来诱导有害输出。作者指出，现有越狱研究大多聚焦于单模型场景，而实践中攻击者往往能并行访问多个模型（例如通过API调用多个服务）。为验证这一假设，论文首先从形式化定义宽网投射场景，并系统分析了其带来的额外安全风险：由于不同模型可能存在互补的漏洞或对同一提示的不同反应，攻击者可以利用输出间的统计特性或集成策略来提高越狱成功率。进一步，作者设计了一种专为宽网投射场景定制的越狱方法，该方法可能通过构造一组具有关联性的提示，使得在单一模型上难以成功，但跨模型集成后却能产生有害内容。实验在多个主流大模型（如GPT系列、LLaMA等）上进行，结果显示，当模型未添加额外安全防护时，该方法的越狱成功率最高可达100%。即使在有基础安全对齐的模型上，成功率也有显著提升。论文的主要贡献包括：1）首次系统性地提出宽网投射越狱场景；2）设计并验证了针对该场景的高效攻击方法；3）揭示了多模型并行服务架构中存在的隐蔽安全风险，为未来的防御研究（如跨模型一致性过滤、输入多样性检测等）提供了方向和基准。该研究适合大模型安全研究员、AI红队工程师以及提供多模型API服务的厂商阅读，以重新评估其安全部署策略。

💡 推荐理由: 揭示了一种实际且高风险的越狱新场景——宽网投射，攻击者可同时利用多个模型的弱点，突破单个模型的防御，对多模型API服务构成重大威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yi Wang, Hongye Qiu, Yue Xu, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang

大型语言模型（LLMs）和视觉语言模型（VLMs）在展现强大能力的同时，仍容易受到越狱攻击（jailbreaking attacks）的威胁，攻击者利用文本或视觉触发器绕过安全护栏。现有的防御方法通常依赖安全微调或外部过滤器来降低模型生成有害内容的概率，但这类方法往往带来显著的计算开销，并面临安全-效用权衡问题，即损害模型在良性任务上的表现。为了应对这些挑战，本文提出EVA（Editing for Versatile Alignment against Jailbreaks）框架，首次将直接模型编辑（direct model editing）应用于安全对齐。EVA将安全对齐重新定义为一种精确的知识修正任务：不是重新训练大量参数，而是识别并精准编辑那些导致模型易受有害指令影响的特定神经元，同时保持模型绝大多数参数不变。通过局部化更新，EVA有效中和有害行为，而不损害模型的通用推理能力。大量实验表明，EVA在LLMs和VLMs上均优于基线方法，在缓解越狱攻击方面提供了精确且高效的解决方案，适用于部署后的安全对齐。

💡 推荐理由: EVA提出了一种轻量级、非侵入式的安全对齐方法，通过模型编辑精准修复漏洞，避免传统微调的副作用，为LLM/VLM的部署后安全维护提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit

该论文揭示了当前大型语言模型（LLM）越狱攻击评估中的关键问题：攻击成功率（ASR）作为主要基准指标存在不稳定性。作者观察到，即使一篇顶级论文（如来自Anthropic的BoN或Microsoft Research的Crescendo）宣称在闭源模型上达到80%的ASR，但实际复现时，针对同一目标模型生成的越狱提示在10次尝试中仅能连续成功5次（50%），远低于宣称值。这导致发表论文中的ASR数字被系统性高估且无法跨论文比较。核心研究问题为：为何一个成功的越狱提示在目标模型上无法稳定复现？为回答该问题，作者系统研究了随机性在攻击评估和攻击生成两个阶段的影响，涵盖多种越狱攻击、不同规模和供应商的模型以及多种评估器（judge）。基于此，他们提出了一个新指标和两个框架：（1）CAS-eval（一致性攻击成功率评估框架），要求越狱提示在多次尝试中持续成功，实验表明采用该评估后ASR可下降多达30个百分点；（2）CAS-gen（一致性攻击生成框架），通过改进现有越狱方法，帮助恢复这30个百分点的性能损失。该研究对LLM安全评估标准和方法论有重要贡献，提醒从业者ASR作为单一指标的局限性，并提供了更稳健的评估与生成方案。适合LLM安全研究人员、红蓝队工程师以及评估基准设计者阅读。

💡 推荐理由: 揭示了LLM越狱攻击评估中ASR指标的系统性缺陷，并提供了可落地的评估与生成改进框架，有助于提高安全测试的真实性和可复现性。

🎯 建议动作: 研究跟进，将CAS-eval和CAS-gen方法纳入内部LLM安全评估流程

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zvi Topol

该论文提出了一种基于生存分析来量化大型语言模型（LLM）在重复攻击下安全性退化程度的新框架。现有的 LLM 越狱评估通常仅报告二元的成功/失败指标，无法捕捉在持续对抗压力下攻击如何随时间成功的动态过程。本文借鉴医学和可靠性工程中的生存分析方法，将“越狱时间”视为生存结局，从而能够估计风险函数、生存曲线以及与成功攻击相关的风险因素。作者从 HarmBench 数据集中选取了三个攻击类别的提示子集，对三个 LLM 进行了评估。分析表明，不同模型呈现出不同的漏洞特征：一个模型在迭代攻击下显示出快速退化，而另外两个模型则表现出持续的中等脆弱性。该框架为模型和 LLM 应用开发者提供了可操作的见解，并将生存分析确立为一种严格的 LLM 安全性评估方法。

💡 推荐理由: 该研究为 LLM 安全性评估引入了一种动态量化方法，能更准确地反映模型在持续攻击下的退化速度，有助于安全团队比较不同模型的抗攻击持久性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zheng Lin, Zhenxing Niu, Haoxuan Ji, Haichang Gao

本文提出了一种针对大型语言模型 (LLM) 的保证性越狱防御方法——Disrupt-and-Rectify Smoothing (DR-Smoothing)。该方法受对抗防御领域中去噪平滑技术的启发，将两阶段提示处理方案（先干扰输入提示，再修正）集成到传统平滑防御框架中。与先前仅干扰的方法相比，本方法通过将分布外（out-of-distribution）的干扰提示恢复为分布内形式，降低了LLM行为不可预测的风险。此外，这种两阶段方案在越狱防御中实现了无害性与有用性之间的有效平衡。作者给出了通用平滑框架的理论分析，提供了防御成功概率的紧界以及对干扰强度的要求。DR-Smoothing能够防御令牌级和提示级的越狱攻击，包括在已建立和自适应攻击场景下。大量实验表明，该方法在无害性和有用性两方面均超越了当前最先进的防御方法。本文适合LLM安全研究人员、AI防御系统开发者以及关注生成模型鲁棒性的从业者阅读。

💡 推荐理由: 该工作为LLM越狱防御提供了理论保证和实用方法，平衡了安全性与可用性，对提升生成式AI系统的可信赖性有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Yingkai Dong, Xiangtao Meng, Ning Yu 0006, Zheng Li 0023, Shanqing Guo

本文提出 JailFuzzer，一种基于大语言模型（LLM）代理的自动化模糊测试框架，用于黑盒环境下对文本到图像（T2I）生成模型进行越狱攻击。现有越狱方法存在访问需求不切实际、提示语不自然易被检测、搜索空间受限以及查询开销高等问题。JailFuzzer 结合模糊测试原理与 LLM 代理，包含三个核心组件：种子池（存储初始及越狱提示）、引导变异引擎（利用 LLM 代理生成语义有意义的变异）、以及 oracle 函数（评估越狱是否成功）。通过 LLM 代理构建引导变异引擎和 oracle 函数，使得框架在黑盒环境下保持高效性和适应性。大量实验表明，JailFuzzer 在越狱 T2I 模型方面具有显著优势：生成的提示自然且语义连贯，降低了被传统防御机制检测的概率；同时以极少的查询开销实现高成功率，在所有关键指标上优于现有方法。该研究揭示了 T2I 模型面临的新型越狱威胁，为强化生成模型的安全机制提供了重要参考。JailFuzzer 已开源，代码可在 https://github.com/YingkaiD/JailFuzzer 获取。

💡 推荐理由: 该研究展示了一种高效、自动化的黑盒越狱攻击方法，对 T2I 模型构成真实威胁，安全团队需关注并防范此类利用 LLM 代理的模糊测试攻击。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Feiyue Xu, Hongsheng Hu, Chaoxiang He, Sheng Hang, Hanqing Hu, Xiuming Liu, Yubo Zhao, Zhengyan Zhou, Bin Benjamin Zhu, Shi-Feng Sun, Dawu Gu, Shuo Wang

本文是一篇系统化知识综述（SoK），聚焦于大语言模型（LLM）针对越狱攻击的鲁棒性问题。越狱攻击通过精心构造的对抗提示，诱使模型生成有害、不道德或违反政策的输出，对高安全性应用中的信任、合规和安全构成实际威胁。现有评估实践通常仅依赖攻击成功率等单一指标，无法全面捕捉LLM安全的多维度特性。为此，作者首先提出了越狱攻击与防御的系统分类法，梳理了当前文献中的关键见解与开放挑战。在此基础上，引入了一种统一的多维评估框架——Security Cube，用于全面评估攻击与防御技术。该框架涵盖多个评估维度，能够更准确地反映LLM的安全态势。利用Security Cube，作者对13种代表性攻击和5种防御方法进行了基准研究，清晰描绘了当前领域在越狱攻击、防御、自动评判器和LLM漏洞等方面的整体图景。基于这些评估，文章提炼了关键发现，指出了尚未解决的问题，并概述了增强LLM越狱攻击鲁棒性的有前景研究方向。该研究旨在为构建更鲁棒、可解释和可信赖的LLM系统铺平道路。代码已开源。适合安全研究人员、LLM开发者和AI治理从业者阅读。

💡 推荐理由: 该论文提供了LLM越狱攻防的系统分类法和首个多维评估框架Security Cube，有助于安全社区统一评估标准、发现现有防御盲点，对提升LLM安全性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge

本文针对音频语言模型（ALM）的越狱攻击展开研究。现有的越狱攻击通常在整个音频波形上密集地优化扰动，以诱使ALM生成不安全的内容。作者首先通过分析ALM中token对齐梯度的结构，发现梯度能量在音频token上高度不均匀，即只有少量token对应的音频区域主导了优化信号。基于这一观察，提出了Token-Aware梯度优化（TAGO）方法，该方法在每次迭代中仅保留与高梯度能量音频token对齐的波形梯度，而屏蔽其余梯度，从而实现稀疏越狱优化。在三个ALM（包括Qwen3-Omni）上的实验表明，TAGO在显著稀疏化（如token保留率0.25）时仍能保持较高的攻击成功率（例如Qwen3-Omni上ASR_l为86%，而完全保留token时为87%），证明了密集波形更新在很大程度上是冗余的。该工作揭示了token级别异质梯度结构，为未来ALM越狱和安全对齐研究提供了新方向，并建议防御者关注此类稀疏攻击的潜在威胁。

💡 推荐理由: 该研究揭示了音频语言模型越狱攻击中梯度结构的非均匀性，并证明只需少量token即可实现高效攻击，这提示防御者不能仅依赖全波形扰动防御，需开发针对token级稀疏扰动的检测与缓解措施。

🎯 建议动作: 研究跟进，评估自身ALM系统对此类稀疏攻击的脆弱性

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Songze Li, Jiameng Cheng, Yiming Li, Xiaojun Jia, Dacheng Tao

该论文提出了一种名为Odysseus的新型越狱攻击范式，针对商业多模态大语言模型（MLLM）集成系统。当前的安全过滤器通常假设恶意内容必须在输入或输出中显式可见才能被检测，但多模态系统允许攻击者利用图像等多重模态隐藏恶意意图。Odysseus采用双重隐写术：首先将恶意查询（如生成有害内容的指令）通过隐写技术编码到看似正常的图像中，作为输入提交给MLLM；然后MLLM生成的响应同样通过隐写术隐藏在另一张图像中输出。整个攻击过程中，输入和输出的文本表面均无恶意内容，从而绕过基于显式文本检测的安全过滤器。实验在多个商业MLLM集成系统（如GPT-4V等）上进行，攻击成功率高达99%。该研究揭示了现有防御机制的根本盲点，即过度依赖单模态的显式内容审查，而忽视了跨模态隐写承载恶意信息的能力。论文呼吁重新设计多模态系统的安全架构，考虑跨模态一致性和隐写检测。

💡 推荐理由: 该研究暴露了当前MLLM安全过滤器的致命盲点：它们无法检测跨模态隐写的恶意内容，使得商业系统面临严重越狱风险。

🎯 建议动作: 研究跟进，评估自身MLLM系统对该攻击的脆弱性，并考虑部署隐写检测与跨模态一致性检查。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yingjie Zhang, Tong Liu 0027, Zhe Zhao 0007, Guozhu Meng, Kai Chen 0012

该论文研究了大型语言模型（LLM）在面对越狱攻击时的脆弱性，发现了一个关键问题：在响应生成过程中，LLM区分安全与有害输出的能力会逐渐下降。实验表明，随着生成的进行，安全响应和有害响应的隐藏状态之间的可分离性不断减弱，这种“判别性消失”迫使模型在生成早期就做出合规性判断，从而限制了其识别逐渐形成的恶意意图的能力，导致安全微调方法在平衡安全性与实用性时失效，并无法察觉隐藏恶意。为了解决这一问题，论文提出了DEEPALIGN防御框架，通过在响应生成的中间点应用对比隐藏状态引导（contrastive hidden-state steering），增强有害与良性隐藏状态之间的分离，从而在整个生成过程中实现持续的内在毒性检测与干预。在多种不同架构和规模的LLM上的实验表明，DEEPALIGN能够将9种不同越狱攻击的成功率降至接近零或最低，同时保持模型能力并减少过度拒绝。配备DEEPALIGN的模型在拒绝具有挑战性的良性查询时错误率降低高达3.5%，标准任务性能下降不到1%，实现了安全-效用帕累托前沿的重大进步。

💡 推荐理由: 该研究揭示了LLM安全微调的根本缺陷，即生成过程中判别能力的消失，并提供了可落地的防御框架DEEPALIGN，显著提升安全-效用平衡，对AI安全领域具有重要启发。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Licheng Pan, Yunsheng Lu, Jiexi Liu 0005, Jialing Tao, Haozhe Feng, Hui Xue 0001, Zhixuan Chu, Kui Ren 0001

本文针对大语言模型（LLM）的“越狱”攻击机制展开因果分析研究。现有研究主要通过对潜在表示的探测来分析越狱提示，但往往忽略了可解释提示特征与越狱发生之间的因果关系。为此，作者提出了Causal Analyst框架，将LLM集成到数据驱动的因果发现中，以识别越狱的直接原因，并将其分别用于攻击与防御。该框架首先构建了一个包含35k次越狱尝试的数据集，涵盖7个LLM、100个攻击模板和50个有害查询，并人工标注了37个可读的提示特征。随后，通过联合训练基于LLM的提示编码和基于图神经网络的因果图学习，重建了从提示特征到越狱响应的因果通路。分析发现，“正面角色”（Positive Character）和“任务步骤数”（Number of Task Steps）等特定特征是越狱的直接因果驱动因素。基于这些因果洞察，作者开发了两个应用：一是“越狱增强器”，通过针对性地增强因果特征显著提升了在公开基准上的攻击成功率；二是“护栏顾问”，利用学到的因果图从混淆查询中提取真正的恶意意图。大量实验包括基线对比和因果结构验证证实了因果分析的鲁棒性，并证明其优于非因果方法。本文表明，从因果角度分析越狱特征是提升LLM可靠性的有效且可解释的途径。代码已开源。

💡 推荐理由: 首次从因果视角系统性地揭示LLM越狱的驱动机理，不仅解释了现有攻击为何成功，更提供了可操作的防御思路，有助于构建更鲁棒的护栏机制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mario Rodríguez Béjar, Francisco J. Cortés-Delgado, S. Braghin, Jose L. Hernández-Ramos

本文提出了一种名为 ContextualJailbreak 的黑盒红队攻击策略，用于自动化发现大语言模型（LLM）的越狱漏洞。与大多数现有工作集中在单轮提示优化不同，本文聚焦于多轮对话中的上下文预置（contextual priming）攻击面，即攻击者通过前几轮对话隐蔽地偏置模型后续回复。现有基于优化的红队方法主要局限于单轮设置，无法有效探索多轮预置对话的变异空间。ContextualJailbreak 采用进化搜索算法，在模拟的多轮预置对话上进行迭代优化。搜索过程中使用一个两级裁判给出的0-5级危害分数作为内部信号，使部分有害响应也能引导搜索而非被直接丢弃。搜索由五个语义定义的变异算子驱动：角色扮演（roleplay）、场景（scenario）、扩展（expand）、故障排除（troubleshooting）和机制（mechanistic），其中后两个是本文的新贡献。实验在 HarmBench 的50个代表性行为上进行，ContextualJailbreak 在 gpt-oss:20B、qwen3-8B 和 llama3.1:70B 上实现了100%的攻击成功率（ASR），在 gpt-oss:120B 上达到90%，平均比四种单轮和多轮基线高出31-96个百分点。针对 gpt-oss:120B 发现的最有害的40个攻击无需调整即可迁移到封闭前沿模型：在 gpt-4o-mini 上达到90.0%，在 gpt-5 和 gemini-3-flash 上达到70.0%，但在 claude-opus-4-7 上仅17.5%，在 claude-sonnet-4-6 上仅15.0%，揭示了不同供应商之间对齐鲁棒性的显著不对称性。本文贡献了一种自动化的多轮越狱搜索方法，并揭示了现有安全对齐的薄弱环节。

💡 推荐理由: 该研究揭示了多轮对话上下文预置攻击的自动化生成方法，并发现不同供应商模型的对齐鲁棒性存在巨大差异，对LLM安全评估和防御部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)