该论文旨在探索一种被忽视的越狱攻击场景——宽网投射(wide-net-casting),即攻击者并非只针对单个大语言模型,而是同时查询一组模型来诱导有害输出。作者指出,现有越狱研究大多聚焦于单模型场景,而实践中攻击者往往能并行访问多个模型(例如通过API调用多个服务)。为验证这一假设,论文首先从形式化定义宽网投射场景,并系统分析了其带来的额外安全风险:由于不同模型可能存在互补的漏洞或对同一提示的不同反应,攻击者可以利用输出间的统计特性或集成策略来提高越狱成功率。进一步,作者设计了一种专为宽网投射场景定制的越狱方法,该方法可能通过构造一组具有关联性的提示,使得在单一模型上难以成功,但跨模型集成后却能产生有害内容。实验在多个主流大模型(如GPT系列、LLaMA等)上进行,结果显示,当模型未添加额外安全防护时,该方法的越狱成功率最高可达100%。即使在有基础安全对齐的模型上,成功率也有显著提升。论文的主要贡献包括:1)首次系统性地提出宽网投射越狱场景;2)设计并验证了针对该场景的高效攻击方法;3)揭示了多模型并行服务架构中存在的隐蔽安全风险,为未来的防御研究(如跨模型一致性过滤、输入多样性检测等)提供了方向和基准。该研究适合大模型安全研究员、AI红队工程师以及提供多模型API服务的厂商阅读,以重新评估其安全部署策略。
💡 推荐理由: 揭示了一种实际且高风险的越狱新场景——宽网投射,攻击者可同时利用多个模型的弱点,突破单个模型的防御,对多模型API服务构成重大威胁。
🎯 建议动作: 研究跟进