#text-to-image

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yingkai Dong, Xiangtao Meng, Ning Yu 0006, Zheng Li 0023, Shanqing Guo

本文提出 JailFuzzer,一种基于大语言模型(LLM)代理的自动化模糊测试框架,用于黑盒环境下对文本到图像(T2I)生成模型进行越狱攻击。现有越狱方法存在访问需求不切实际、提示语不自然易被检测、搜索空间受限以及查询开销高等问题。JailFuzzer 结合模糊测试原理与 LLM 代理,包含三个核心组件:种子池(存储初始及越狱提示)、引导变异引擎(利用 LLM 代理生成语义有意义的变异)、以及 oracle 函数(评估越狱是否成功)。通过 LLM 代理构建引导变异引擎和 oracle 函数,使得框架在黑盒环境下保持高效性和适应性。大量实验表明,JailFuzzer 在越狱 T2I 模型方面具有显著优势:生成的提示自然且语义连贯,降低了被传统防御机制检测的概率;同时以极少的查询开销实现高成功率,在所有关键指标上优于现有方法。该研究揭示了 T2I 模型面临的新型越狱威胁,为强化生成模型的安全机制提供了重要参考。JailFuzzer 已开源,代码可在 https://github.com/YingkaiD/JailFuzzer 获取。

💡 推荐理由: 该研究展示了一种高效、自动化的黑盒越狱攻击方法,对 T2I 模型构成真实威胁,安全团队需关注并防范此类利用 LLM 代理的模糊测试攻击。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)