#text-to-image 主题 - Cyber Security Daily Radar

👥 作者: Ana-Maria Cretu 0002, Klim Kireev, Amro Abdalla, Wisdom Obinna, Raphael Meier, Sarah Adel Bargal, Elissa M. Redmiles, Carmela Troncoso

本文评估了从文生图模型（如扩散模型）的训练数据中过滤儿童图像以阻止模型被滥用于生成儿童性虐待材料（CSAM）的有效性。首先，作者通过基于游戏的安全定义捕捉了防止CSAM生成的复杂性，指出过滤防御需平衡攻击者能力和模型实用性。其次，实证表明现有检测方法（如基于感知哈希或分类器）无法从数据集中完全移除所有儿童图像，存在漏网之鱼。第三，以“戴眼镜的儿童”作为CSAM的伦理代理，实验发现即使训练数据中仅残留少量儿童图像（过滤后），攻击者仍可通过特定提示策略（如重复采样或组合概念）以略多于未过滤模型的查询次数生成戴眼镜的儿童。若对过滤后的模型进行微调（使用少量儿童图像），额外查询开销进一步降低。此外，即使过滤完美（训练数据中无儿童图像），攻击者仍可通过微调（例如使用少量外部儿童图像）重新引入生成儿童概念的能力。结果表明，当前儿童过滤方法对闭源模型提供有限保护，对开源模型则完全无效，且过滤会损害模型通用性（如削弱儿童相关概念生成或改变其语义表示）。最后，作者指出了评估概念过滤防御对CSAM影响时面临的挑战，包括缺乏真实CSAM数据、伦理约束及可迁移性等问题。本文适合从事AIGC安全、内容审核、模型鲁棒性研究的学者及平台安全策略制定者阅读。

💡 推荐理由: 揭示了当前基于数据过滤的CSAM防护存在根本性缺陷，攻击者可通过少量残留样本或微调绕过防御，对开源模型尤其危险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peilin Han, Yang Liu, Yilong Yang, Jingchun Zhang, Teng Li, Jianfeng Ma, Zhuo Ma

本文对野外（in-the-wild）文本到图像（T2I）模型的安全性进行了大规模实证研究。现有关于T2I越狱（jailbreak）的安全研究大多在受控实验室环境下进行，通常只针对少量经典模型，因此快速增长的野外T2I生态系统当前的安全状况尚不清楚。这种不确定性因两个因素而加剧：现有的基于检测器的指标是为受控评估而设计的，且野外风险不仅可能来自对抗性提示，还可能来自不安全的发布实践和不安全的模型衍生品。本文通过越狱的视角对野外T2I安全性进行了大规模实证研究。首先，作者发现仅使用检测器的越狱指标由于语义漂移和生成伪影，会显著高估野外实际风险，并提出了Advanced ASR（高级攻击成功率）指标，以更好地捕获语义有效且视觉上可信的不安全生成。使用这一改进指标，作者在三种代表性越狱攻击下评估了来自Hugging Face的200多个野外T2I模型。结果表明，许多下游模型即使没有明确的事后防护措施，仍保留了相当程度的安全性，表明野外安全性退化既非普遍也非均匀。同时，作者识别出一组高风险模型，包括明确面向NSFW的发布以及看似良性但通过系统评估才暴露不安全行为的模型。作者进一步追溯这些模型的发布背景，并向Hugging Face报告了高风险案例。

💡 推荐理由: 揭示了T2I模型在野外环境下的真实安全风险，修正了现有评估方法的偏差，为安全从业者提供更准确的威胁评估依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Leyi Sheng, Han Sun, Zhen Sun, Yuntao Yue, Jinlin Wu, Xinlei He, Jiaheng Wei

本文针对文本到图像（T2I）生成模型越狱评估中存在的复现性和可比性问题，提出了一种自演进论文到管线智能体框架PixJail。当前T2I越狱技术发展迅速，但现有基准和复现工作流难以同步更新；更重要的是，T2I越狱评估并非单次提示级测试，而是一个由多个阶段构成的管线级问题，包括提示转换、图像生成、安全过滤和多模态评判等环节，导致不同论文的结果难以可靠复现和公平比较。PixJail通过以下方式解决该问题：给定一篇T2I越狱论文及可选参考代码，在统一合约下快速构建论文特定的攻击模块和可运行的评估管线，并忠实复现原始实验结果；同时维护一个记忆库，存储论文摘要、攻击演化模式、可复用模板、失败案例及版本化工件，使后续复现工作能够复用先前经验。作者复现了11种代表性T2I越狱方法（包括有代码和无代码论文），在其原始设置下，框架能以极小误差（平均2.1%，中位数0%）准确恢复先前结果。PixJail旨在为未来T2I越狱复现和评估提供统一基础，大幅减少人工工作量。该工作主要面向安全研究社区，特别是关注生成式AI安全评估的从业者。

💡 推荐理由: T2I越狱评估的复现性是生成式AI安全领域的痛点。PixJail提供自动化、可扩展的复现框架，有助于标准化评估流程，提升研究可信度，为防御者跟进最新攻击手法并设计对策提供基础。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jianwei Fei, Yunshu Dai, Zhihua Xia, Xiaochun Cao, Jiantao Zhou, Alessandro Piva, Benedetta Tondi

本文提出了一种针对文本到图像（T2I）扩散模型的高效、鲁棒且抗合谋的模型指纹识别方法。现有模型指纹技术通过向生成图像嵌入用户特定标识符来保护知识产权，但普遍存在一个未探索的系统性漏洞：它们缺乏对抗合谋攻击的鲁棒性。合谋攻击中，多个攻击者联合其模型以移除或隐藏指纹。为此，本文首次提出具有抗合谋能力的T2I模型指纹方法。该方法将二进制位字符串（指纹）编码到个性化归一化模块（PNM）的系数中，该模块被集成到T2I模型中，使得从任何生成图像中都能可靠地恢复指纹。为防御合谋攻击并防止未授权模型再分发，引入了一种基于无损函数不变参数变换的抗合谋机制，该机制显著降低合谋模型的图像生成质量（通过增加FID指标），使其实际上不可用。此外，该方法允许开发者通过重新参数化PNM高效地创建多个带指纹的T2I模型副本，而无需重新训练。还引入了一种最坏情况优化策略，以提高对模型级攻击的鲁棒性。实验表明，该方法在多个T2I图像生成和编辑任务中实现了高保真度和鲁棒性，指纹提取准确率超过99.5%。与现有方法相比，该方法首次通过显著增加合谋模型的FID，展现出对合谋攻击的主动鲁棒性。该研究适合AI安全研究人员、模型开发者及知识产权保护相关从业者阅读。

💡 推荐理由: 揭示了现有模型指纹方法在合谋攻击下的系统性漏洞，并首次提出有效的抗合谋方案，对保护生成式AI模型的版权和防止非法分发具有重要实践意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yilan Gao, Sida Huang, Hongyuan Zhang, Xuelong Li

本文针对文本到图像生成模型（如 Stable Diffusion）在作为云端 API 服务部署时面临的模型窃取攻击展开研究。攻击者可以通过反复查询 API 收集大量生成的合成图像，并用这些图像训练私有替代模型，从而实现未经授权的知识蒸馏和能力复制，而无需访问原始模型权重。现有防御方法难以在保持输出图像视觉质量、提供显式扰动幅度控制以及高效处理大规模输出之间取得平衡。为此，作者提出了一种基于单次生成器（single-pass）的保护框架 WaveGuard。WaveGuard 采用频率感知的扰动生成器，在用户指定的扰动预算下对每张合成图像注入结构化、不可感知的扰动。这些扰动对于正常观看者几乎不可见，但能显著降低受保护图像作为训练数据对未授权学生模型的有效性。在 WikiArt 数据集上的合成输出蒸馏实验表明，WaveGuard 在有效性、保真度和效率三者之间取得了良好权衡，实现了显式的不可感知性控制，并大幅提升了保护效率。该方法不需要修改原始生成模型，仅需在输出图像上叠加扰动，可无缝集成到现有 API 管道中。

💡 推荐理由: 随着生成式AI服务商业化，模型窃取成为重大安全威胁。本文提出一种实用、高效的防御方案，在不影响用户体验的前提下干扰攻击者训练替代模型，对保护商业模型知识产权具有直接价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yingkai Dong, Xiangtao Meng, Ning Yu 0006, Zheng Li 0023, Shanqing Guo

本文提出 JailFuzzer，一种基于大语言模型（LLM）代理的自动化模糊测试框架，用于黑盒环境下对文本到图像（T2I）生成模型进行越狱攻击。现有越狱方法存在访问需求不切实际、提示语不自然易被检测、搜索空间受限以及查询开销高等问题。JailFuzzer 结合模糊测试原理与 LLM 代理，包含三个核心组件：种子池（存储初始及越狱提示）、引导变异引擎（利用 LLM 代理生成语义有意义的变异）、以及 oracle 函数（评估越狱是否成功）。通过 LLM 代理构建引导变异引擎和 oracle 函数，使得框架在黑盒环境下保持高效性和适应性。大量实验表明，JailFuzzer 在越狱 T2I 模型方面具有显著优势：生成的提示自然且语义连贯，降低了被传统防御机制检测的概率；同时以极少的查询开销实现高成功率，在所有关键指标上优于现有方法。该研究揭示了 T2I 模型面临的新型越狱威胁，为强化生成模型的安全机制提供了重要参考。JailFuzzer 已开源，代码可在 https://github.com/YingkaiD/JailFuzzer 获取。

💡 推荐理由: 该研究展示了一种高效、自动化的黑盒越狱攻击方法，对 T2I 模型构成真实威胁，安全团队需关注并防范此类利用 LLM 代理的模糊测试攻击。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#text-to-image

Evaluating Concept Filtering Defenses against Child Sexual Abuse Material Generation by Text-to-Image Models.

Open Models, Open Risks: Measuring Unsafe Generation in Text-to-Image Models In the Wild

PixJail: Self-Evolving Paper-to-Pipeline Reproduction for Text-to-Image Jailbreak Evaluation

Efficient, Robust, and Anti-Collusion Fingerprinting of Image Diffusion Models

Safeguarding Text-to-Image Generative Models Against Unauthorized Knowledge Distillation

Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-to-Image Generation Models.