#jailbreak

共收录 15 条相关安全情报。

← 返回所有主题
👥 作者: Doguhuan Yeke, Yanming Zhou, Leo Y. Lin, Hongyu Cai, Antonio Bianchi, Z. Berkay Celik

该论文提出了 RoboJailBench,一个针对具身 AI 系统中越狱攻击与防御的标准化基准。研究背景是现有评估依赖于临时数据集、有限指标,且只关注攻击成功率,忽略了安全与遵循良性指令能力之间的权衡。核心工作包括三个部分:首先,基于 ISO 标准、监管规则和已记录事件建立了安全分类法,归纳出18类具身 AI 安全违规后果;其次,设计了意图对比数据集流水线,通过生成成对的对抗性和良性目标来同时衡量安全性和效用;最后,提供了一个持续演进的代码仓库,包含标准化指标和统一流程,用于评估和集成新的攻击与防御。作者利用该基准构建了一个新的分类平衡数据集,并增强了五个现有数据集,集成了四种攻击和两种防御,对主流具身 VLM 进行了评估。RoboJailBench 是首个针对具身 AI 越狱攻击的标准化评估框架,支持未来研究。论文适合安全研究人员、机器人 AI 开发者以及关注 AI 安全基准的从业者阅读。

💡 推荐理由: 该基准填补了具身 AI 安全评估的空白,为蓝队提供标准化测试工具,帮助理解 VLM 驱动的机器人面临的实际越狱威胁,并平衡安全与功能性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Ziwei Wang, Jing Chen, Ruichao Liang, Zhi Wang, Yebo Feng, Ju Jia, Ruiying Du, Cong Wu, Yang Liu

本文发现大型语言模型(LLM)的安全对齐机制存在固有脆弱性:模型仅依赖少量稀疏分布的注意力头进行安全监控,导致大部分表示空间缺乏有效监管。作者通过数学建模形式化了文本混淆的有效边界,并利用该边界设计了一种高效的黑盒越狱攻击框架Babel。该方法通过系统化的混淆采样和迭代反馈驱动的分布优化,无需访问模型内部即可实现高成功率攻击。在GPT-4o和Claude-3-5-haiku等前沿商用模型上,Babel在平均40次查询内将攻击成功率分别从41.33%提升至82.67%、从38.33%提升至78.33%,显著优于现有方法。该工作揭示了LLM安全机制的盲区,为红队测试提供了新方法论。

💡 推荐理由: 揭示了LLM安全对齐的深层脆弱性——仅依赖少数注意力头,解释了现有越狱攻击的成功原因,为防御者理解攻击根本原因和改进安全机制提供重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Wenzhuo Xu, Zhipeng Wei, Zonghao Ying, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Quanchen Zou

多模态大语言模型(MLLMs)在接收多图像输入时存在安全隐患。现有越狱方法仅使用单张图像,限制了攻击空间:无法将有害请求分布到多张图像、携带丰富信息或利用额外视觉推理任务分散模型注意力。本文提出一种组合式越狱框架DMN,通过分布式指令(Distributed instruction)、多模态证据(Multimodal evidence)和数字链任务(Number chain task)全面增强越狱效果。分布式指令将有害内容拆解到多张图像中,绕过单图安全审查;多模态证据利用图像与文本的关联构建推理链条;数字链任务强制模型进行数值排序,分散其对危险内容的警觉。实验表明,DMN在GPT-4o、Gemini-2.5-pro和Claude Sonnet 4上攻击成功率超过90%,显著优于现有基准。该框架揭示出当前多模态安全对齐机制在组合式、多图像输入场景下的根本性弱点。研究为多模态AI安全评估提供了新视角,提示开发者在多图像条件下需强化安全对齐策略。

💡 推荐理由: 该研究揭示多模态大模型在多图像输入场景下的安全漏洞,攻击成功率极高,直接影响GPT-4o等主流商业模型的安全性评估,推动安全对齐方案改进。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Qiuchi Xiang, Haoxuan Qu, Hossein Rahmani, Jun Liu

该论文旨在探索一种被忽视的越狱攻击场景——宽网投射(wide-net-casting),即攻击者并非只针对单个大语言模型,而是同时查询一组模型来诱导有害输出。作者指出,现有越狱研究大多聚焦于单模型场景,而实践中攻击者往往能并行访问多个模型(例如通过API调用多个服务)。为验证这一假设,论文首先从形式化定义宽网投射场景,并系统分析了其带来的额外安全风险:由于不同模型可能存在互补的漏洞或对同一提示的不同反应,攻击者可以利用输出间的统计特性或集成策略来提高越狱成功率。进一步,作者设计了一种专为宽网投射场景定制的越狱方法,该方法可能通过构造一组具有关联性的提示,使得在单一模型上难以成功,但跨模型集成后却能产生有害内容。实验在多个主流大模型(如GPT系列、LLaMA等)上进行,结果显示,当模型未添加额外安全防护时,该方法的越狱成功率最高可达100%。即使在有基础安全对齐的模型上,成功率也有显著提升。论文的主要贡献包括:1)首次系统性地提出宽网投射越狱场景;2)设计并验证了针对该场景的高效攻击方法;3)揭示了多模型并行服务架构中存在的隐蔽安全风险,为未来的防御研究(如跨模型一致性过滤、输入多样性检测等)提供了方向和基准。该研究适合大模型安全研究员、AI红队工程师以及提供多模型API服务的厂商阅读,以重新评估其安全部署策略。

💡 推荐理由: 揭示了一种实际且高风险的越狱新场景——宽网投射,攻击者可同时利用多个模型的弱点,突破单个模型的防御,对多模型API服务构成重大威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 10.6
Conf: 50%
👥 作者: Yi Wang, Hongye Qiu, Yue Xu, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang

大型语言模型(LLMs)和视觉语言模型(VLMs)在展现强大能力的同时,仍容易受到越狱攻击(jailbreaking attacks)的威胁,攻击者利用文本或视觉触发器绕过安全护栏。现有的防御方法通常依赖安全微调或外部过滤器来降低模型生成有害内容的概率,但这类方法往往带来显著的计算开销,并面临安全-效用权衡问题,即损害模型在良性任务上的表现。为了应对这些挑战,本文提出EVA(Editing for Versatile Alignment against Jailbreaks)框架,首次将直接模型编辑(direct model editing)应用于安全对齐。EVA将安全对齐重新定义为一种精确的知识修正任务:不是重新训练大量参数,而是识别并精准编辑那些导致模型易受有害指令影响的特定神经元,同时保持模型绝大多数参数不变。通过局部化更新,EVA有效中和有害行为,而不损害模型的通用推理能力。大量实验表明,EVA在LLMs和VLMs上均优于基线方法,在缓解越狱攻击方面提供了精确且高效的解决方案,适用于部署后的安全对齐。

💡 推荐理由: EVA提出了一种轻量级、非侵入式的安全对齐方法,通过模型编辑精准修复漏洞,避免传统微调的副作用,为LLM/VLM的部署后安全维护提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 5.5
Conf: 50%
👥 作者: Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit

该论文揭示了当前大型语言模型(LLM)越狱攻击评估中的关键问题:攻击成功率(ASR)作为主要基准指标存在不稳定性。作者观察到,即使一篇顶级论文(如来自Anthropic的BoN或Microsoft Research的Crescendo)宣称在闭源模型上达到80%的ASR,但实际复现时,针对同一目标模型生成的越狱提示在10次尝试中仅能连续成功5次(50%),远低于宣称值。这导致发表论文中的ASR数字被系统性高估且无法跨论文比较。核心研究问题为:为何一个成功的越狱提示在目标模型上无法稳定复现?为回答该问题,作者系统研究了随机性在攻击评估和攻击生成两个阶段的影响,涵盖多种越狱攻击、不同规模和供应商的模型以及多种评估器(judge)。基于此,他们提出了一个新指标和两个框架:(1)CAS-eval(一致性攻击成功率评估框架),要求越狱提示在多次尝试中持续成功,实验表明采用该评估后ASR可下降多达30个百分点;(2)CAS-gen(一致性攻击生成框架),通过改进现有越狱方法,帮助恢复这30个百分点的性能损失。该研究对LLM安全评估标准和方法论有重要贡献,提醒从业者ASR作为单一指标的局限性,并提供了更稳健的评估与生成方案。适合LLM安全研究人员、红蓝队工程师以及评估基准设计者阅读。

💡 推荐理由: 揭示了LLM越狱攻击评估中ASR指标的系统性缺陷,并提供了可落地的评估与生成改进框架,有助于提高安全测试的真实性和可复现性。

🎯 建议动作: 研究跟进,将CAS-eval和CAS-gen方法纳入内部LLM安全评估流程

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zvi Topol

该论文提出了一种基于生存分析来量化大型语言模型(LLM)在重复攻击下安全性退化程度的新框架。现有的 LLM 越狱评估通常仅报告二元的成功/失败指标,无法捕捉在持续对抗压力下攻击如何随时间成功的动态过程。本文借鉴医学和可靠性工程中的生存分析方法,将“越狱时间”视为生存结局,从而能够估计风险函数、生存曲线以及与成功攻击相关的风险因素。作者从 HarmBench 数据集中选取了三个攻击类别的提示子集,对三个 LLM 进行了评估。分析表明,不同模型呈现出不同的漏洞特征:一个模型在迭代攻击下显示出快速退化,而另外两个模型则表现出持续的中等脆弱性。该框架为模型和 LLM 应用开发者提供了可操作的见解,并将生存分析确立为一种严格的 LLM 安全性评估方法。

💡 推荐理由: 该研究为 LLM 安全性评估引入了一种动态量化方法,能更准确地反映模型在持续攻击下的退化速度,有助于安全团队比较不同模型的抗攻击持久性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zheng Lin, Zhenxing Niu, Haoxuan Ji, Haichang Gao

本文提出了一种针对大型语言模型 (LLM) 的保证性越狱防御方法——Disrupt-and-Rectify Smoothing (DR-Smoothing)。该方法受对抗防御领域中去噪平滑技术的启发,将两阶段提示处理方案(先干扰输入提示,再修正)集成到传统平滑防御框架中。与先前仅干扰的方法相比,本方法通过将分布外(out-of-distribution)的干扰提示恢复为分布内形式,降低了LLM行为不可预测的风险。此外,这种两阶段方案在越狱防御中实现了无害性与有用性之间的有效平衡。作者给出了通用平滑框架的理论分析,提供了防御成功概率的紧界以及对干扰强度的要求。DR-Smoothing能够防御令牌级和提示级的越狱攻击,包括在已建立和自适应攻击场景下。大量实验表明,该方法在无害性和有用性两方面均超越了当前最先进的防御方法。本文适合LLM安全研究人员、AI防御系统开发者以及关注生成模型鲁棒性的从业者阅读。

💡 推荐理由: 该工作为LLM越狱防御提供了理论保证和实用方法,平衡了安全性与可用性,对提升生成式AI系统的可信赖性有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)
👥 作者: Yingkai Dong, Xiangtao Meng, Ning Yu 0006, Zheng Li 0023, Shanqing Guo

本文提出 JailFuzzer,一种基于大语言模型(LLM)代理的自动化模糊测试框架,用于黑盒环境下对文本到图像(T2I)生成模型进行越狱攻击。现有越狱方法存在访问需求不切实际、提示语不自然易被检测、搜索空间受限以及查询开销高等问题。JailFuzzer 结合模糊测试原理与 LLM 代理,包含三个核心组件:种子池(存储初始及越狱提示)、引导变异引擎(利用 LLM 代理生成语义有意义的变异)、以及 oracle 函数(评估越狱是否成功)。通过 LLM 代理构建引导变异引擎和 oracle 函数,使得框架在黑盒环境下保持高效性和适应性。大量实验表明,JailFuzzer 在越狱 T2I 模型方面具有显著优势:生成的提示自然且语义连贯,降低了被传统防御机制检测的概率;同时以极少的查询开销实现高成功率,在所有关键指标上优于现有方法。该研究揭示了 T2I 模型面临的新型越狱威胁,为强化生成模型的安全机制提供了重要参考。JailFuzzer 已开源,代码可在 https://github.com/YingkaiD/JailFuzzer 获取。

💡 推荐理由: 该研究展示了一种高效、自动化的黑盒越狱攻击方法,对 T2I 模型构成真实威胁,安全团队需关注并防范此类利用 LLM 代理的模糊测试攻击。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Feiyue Xu, Hongsheng Hu, Chaoxiang He, Sheng Hang, Hanqing Hu, Xiuming Liu, Yubo Zhao, Zhengyan Zhou, Bin Benjamin Zhu, Shi-Feng Sun, Dawu Gu, Shuo Wang

本文是一篇系统化知识综述(SoK),聚焦于大语言模型(LLM)针对越狱攻击的鲁棒性问题。越狱攻击通过精心构造的对抗提示,诱使模型生成有害、不道德或违反政策的输出,对高安全性应用中的信任、合规和安全构成实际威胁。现有评估实践通常仅依赖攻击成功率等单一指标,无法全面捕捉LLM安全的多维度特性。为此,作者首先提出了越狱攻击与防御的系统分类法,梳理了当前文献中的关键见解与开放挑战。在此基础上,引入了一种统一的多维评估框架——Security Cube,用于全面评估攻击与防御技术。该框架涵盖多个评估维度,能够更准确地反映LLM的安全态势。利用Security Cube,作者对13种代表性攻击和5种防御方法进行了基准研究,清晰描绘了当前领域在越狱攻击、防御、自动评判器和LLM漏洞等方面的整体图景。基于这些评估,文章提炼了关键发现,指出了尚未解决的问题,并概述了增强LLM越狱攻击鲁棒性的有前景研究方向。该研究旨在为构建更鲁棒、可解释和可信赖的LLM系统铺平道路。代码已开源。适合安全研究人员、LLM开发者和AI治理从业者阅读。

💡 推荐理由: 该论文提供了LLM越狱攻防的系统分类法和首个多维评估框架Security Cube,有助于安全社区统一评估标准、发现现有防御盲点,对提升LLM安全性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zheng Fang, Xiaosen Wang, Shenyi Zhang, Shaokang Wang, Zhijin Ge

本文针对音频语言模型(ALM)的越狱攻击展开研究。现有的越狱攻击通常在整个音频波形上密集地优化扰动,以诱使ALM生成不安全的内容。作者首先通过分析ALM中token对齐梯度的结构,发现梯度能量在音频token上高度不均匀,即只有少量token对应的音频区域主导了优化信号。基于这一观察,提出了Token-Aware梯度优化(TAGO)方法,该方法在每次迭代中仅保留与高梯度能量音频token对齐的波形梯度,而屏蔽其余梯度,从而实现稀疏越狱优化。在三个ALM(包括Qwen3-Omni)上的实验表明,TAGO在显著稀疏化(如token保留率0.25)时仍能保持较高的攻击成功率(例如Qwen3-Omni上ASR_l为86%,而完全保留token时为87%),证明了密集波形更新在很大程度上是冗余的。该工作揭示了token级别异质梯度结构,为未来ALM越狱和安全对齐研究提供了新方向,并建议防御者关注此类稀疏攻击的潜在威胁。

💡 推荐理由: 该研究揭示了音频语言模型越狱攻击中梯度结构的非均匀性,并证明只需少量token即可实现高效攻击,这提示防御者不能仅依赖全波形扰动防御,需开发针对token级稀疏扰动的检测与缓解措施。

🎯 建议动作: 研究跟进,评估自身ALM系统对此类稀疏攻击的脆弱性

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Songze Li, Jiameng Cheng, Yiming Li, Xiaojun Jia, Dacheng Tao

该论文提出了一种名为Odysseus的新型越狱攻击范式,针对商业多模态大语言模型(MLLM)集成系统。当前的安全过滤器通常假设恶意内容必须在输入或输出中显式可见才能被检测,但多模态系统允许攻击者利用图像等多重模态隐藏恶意意图。Odysseus采用双重隐写术:首先将恶意查询(如生成有害内容的指令)通过隐写技术编码到看似正常的图像中,作为输入提交给MLLM;然后MLLM生成的响应同样通过隐写术隐藏在另一张图像中输出。整个攻击过程中,输入和输出的文本表面均无恶意内容,从而绕过基于显式文本检测的安全过滤器。实验在多个商业MLLM集成系统(如GPT-4V等)上进行,攻击成功率高达99%。该研究揭示了现有防御机制的根本盲点,即过度依赖单模态的显式内容审查,而忽视了跨模态隐写承载恶意信息的能力。论文呼吁重新设计多模态系统的安全架构,考虑跨模态一致性和隐写检测。

💡 推荐理由: 该研究暴露了当前MLLM安全过滤器的致命盲点:它们无法检测跨模态隐写的恶意内容,使得商业系统面临严重越狱风险。

🎯 建议动作: 研究跟进,评估自身MLLM系统对该攻击的脆弱性,并考虑部署隐写检测与跨模态一致性检查。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Yingjie Zhang, Tong Liu 0027, Zhe Zhao 0007, Guozhu Meng, Kai Chen 0012

该论文研究了大型语言模型(LLM)在面对越狱攻击时的脆弱性,发现了一个关键问题:在响应生成过程中,LLM区分安全与有害输出的能力会逐渐下降。实验表明,随着生成的进行,安全响应和有害响应的隐藏状态之间的可分离性不断减弱,这种“判别性消失”迫使模型在生成早期就做出合规性判断,从而限制了其识别逐渐形成的恶意意图的能力,导致安全微调方法在平衡安全性与实用性时失效,并无法察觉隐藏恶意。为了解决这一问题,论文提出了DEEPALIGN防御框架,通过在响应生成的中间点应用对比隐藏状态引导(contrastive hidden-state steering),增强有害与良性隐藏状态之间的分离,从而在整个生成过程中实现持续的内在毒性检测与干预。在多种不同架构和规模的LLM上的实验表明,DEEPALIGN能够将9种不同越狱攻击的成功率降至接近零或最低,同时保持模型能力并减少过度拒绝。配备DEEPALIGN的模型在拒绝具有挑战性的良性查询时错误率降低高达3.5%,标准任务性能下降不到1%,实现了安全-效用帕累托前沿的重大进步。

💡 推荐理由: 该研究揭示了LLM安全微调的根本缺陷,即生成过程中判别能力的消失,并提供了可落地的防御框架DEEPALIGN,显著提升安全-效用平衡,对AI安全领域具有重要启发。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 11.5
Conf: 50%
👥 作者: Licheng Pan, Yunsheng Lu, Jiexi Liu 0005, Jialing Tao, Haozhe Feng, Hui Xue 0001, Zhixuan Chu, Kui Ren 0001

本文针对大语言模型(LLM)的“越狱”攻击机制展开因果分析研究。现有研究主要通过对潜在表示的探测来分析越狱提示,但往往忽略了可解释提示特征与越狱发生之间的因果关系。为此,作者提出了Causal Analyst框架,将LLM集成到数据驱动的因果发现中,以识别越狱的直接原因,并将其分别用于攻击与防御。该框架首先构建了一个包含35k次越狱尝试的数据集,涵盖7个LLM、100个攻击模板和50个有害查询,并人工标注了37个可读的提示特征。随后,通过联合训练基于LLM的提示编码和基于图神经网络的因果图学习,重建了从提示特征到越狱响应的因果通路。分析发现,“正面角色”(Positive Character)和“任务步骤数”(Number of Task Steps)等特定特征是越狱的直接因果驱动因素。基于这些因果洞察,作者开发了两个应用:一是“越狱增强器”,通过针对性地增强因果特征显著提升了在公开基准上的攻击成功率;二是“护栏顾问”,利用学到的因果图从混淆查询中提取真正的恶意意图。大量实验包括基线对比和因果结构验证证实了因果分析的鲁棒性,并证明其优于非因果方法。本文表明,从因果角度分析越狱特征是提升LLM可靠性的有效且可解释的途径。代码已开源。

💡 推荐理由: 首次从因果视角系统性地揭示LLM越狱的驱动机理,不仅解释了现有攻击为何成功,更提供了可操作的防御思路,有助于构建更鲁棒的护栏机制。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mario Rodríguez Béjar, Francisco J. Cortés-Delgado, S. Braghin, Jose L. Hernández-Ramos

本文提出了一种名为 ContextualJailbreak 的黑盒红队攻击策略,用于自动化发现大语言模型(LLM)的越狱漏洞。与大多数现有工作集中在单轮提示优化不同,本文聚焦于多轮对话中的上下文预置(contextual priming)攻击面,即攻击者通过前几轮对话隐蔽地偏置模型后续回复。现有基于优化的红队方法主要局限于单轮设置,无法有效探索多轮预置对话的变异空间。ContextualJailbreak 采用进化搜索算法,在模拟的多轮预置对话上进行迭代优化。搜索过程中使用一个两级裁判给出的0-5级危害分数作为内部信号,使部分有害响应也能引导搜索而非被直接丢弃。搜索由五个语义定义的变异算子驱动:角色扮演(roleplay)、场景(scenario)、扩展(expand)、故障排除(troubleshooting)和机制(mechanistic),其中后两个是本文的新贡献。实验在 HarmBench 的50个代表性行为上进行,ContextualJailbreak 在 gpt-oss:20B、qwen3-8B 和 llama3.1:70B 上实现了100%的攻击成功率(ASR),在 gpt-oss:120B 上达到90%,平均比四种单轮和多轮基线高出31-96个百分点。针对 gpt-oss:120B 发现的最有害的40个攻击无需调整即可迁移到封闭前沿模型:在 gpt-4o-mini 上达到90.0%,在 gpt-5 和 gemini-3-flash 上达到70.0%,但在 claude-opus-4-7 上仅17.5%,在 claude-sonnet-4-6 上仅15.0%,揭示了不同供应商之间对齐鲁棒性的显著不对称性。本文贡献了一种自动化的多轮越狱搜索方法,并揭示了现有安全对齐的薄弱环节。

💡 推荐理由: 该研究揭示了多轮对话上下文预置攻击的自动化生成方法,并发现不同供应商模型的对齐鲁棒性存在巨大差异,对LLM安全评估和防御部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)