#diffusion-model 主题 - Cyber Security Daily Radar

👥 作者: Yan Pang, Tianhao Wang 0001

本文针对近年流行的扩散模型（diffusion models）提出了一种新的黑盒成员推理攻击（Membership Inference Attack, MIA）框架。随着预训练扩散模型的高质量发布，越来越多的用户下载这些模型并使用下游数据集进行微调，这带来了显著的隐私泄露风险。作者首次基于分数（scores-based）设计了适用于扩散模型的成员推理攻击，并在更严格的黑盒访问设置下进行。该框架考虑了四种不同的攻击场景和三种攻击类型，能够针对任何流行的条件生成器模型，实现了高达0.95的AUC（Area Under Curve）精度。代码已开源。研究揭示了扩散模型在下游任务微调中的隐私脆弱性，为后续防御研究提供了基准。

💡 推荐理由: 首次系统性地针对扩散模型提出黑盒成员推理攻击，展示了微调下游任务中严重的隐私泄露风险，对模型安全部署和隐私保护研究具有重要警示意义。

🎯 建议动作: 研究跟进：将该攻击作为隐私风险评估的基线，开发相应的防御机制。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jingwen Cai, Fen Xiao, Shuhua Deng, Xieping Gao

本论文提出了一种免提示的扩散图像隐写框架（Prompt-Free Diffusion Steganography），旨在解决现有基于文本提示的潜在扩散模型（LDM）隐写方法中，文本提示灵活性不足导致隐写图像质量低、秘密图像恢复不准确的问题。核心创新包括：1）级联仿射耦合模块（CACM），建立秘密图像与其潜在表示之间的双射确定性映射；2）将风格语义先验集成到扩散过程中，控制潜在表示并确保生成隐写图像的视觉不可感知性；3）引入预测-校正机制，通过当前状态和预测下一状态的反馈迭代优化生成轨迹，缓解无条件反向过程中的轨迹偏差。实验结果表明，该方法在安全性、秘密图像重建准确性和可控性方面优于现有方法。本研究主要面向信息安全、图像隐写、深度学习领域的研究人员。

💡 推荐理由: 提出了一种无需文本提示的扩散隐写方法，通过风格语义和预测-校正机制显著提升了隐写图像的视觉质量与秘密恢复精度，为生成式隐写提供了更鲁棒的框架。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shixi Qin, Zhiyong Yang, Shilong Bao, Zitai Wang, Qianqian Xu, Qingming Huang

本文针对扩散桥模型的主动版权保护问题，提出了一种名为GoodDiffusion的防御机制。当前的主流保护方法主要分为事后归因（如数字水印和指纹）和退化防御，这些方法仅提供间接且有限的预防效果。受后门攻击机制的启发，GoodDiffusion将授权内化到生成过程中，通过选择性的许可行为实现模型级别的使用控制：只有携带有效签名的授权查询才能生成高质量的输出，而未授权输入则被拒绝。作者进一步理论证明，传统的静态签名设计（类似于常规的后门注入）本质上是不安全的，因为攻击者可以通过梯度优化高效地恢复出一个代理签名。为解决这一脆弱性，他们引入了可学习签名网络（LSN），该网络根据每个输入的条件生成样本特定的签名，从而打破签名的通用性，阻止代理签名跨输入迁移。大量实验表明，GoodDiffusion在有效阻止未授权使用的同时，能够为授权用户保持强大的生成质量。该研究为扩散模型知识产权保护提供了主动、可撤销的使用时控制方案，适合AI安全研究员、模型部署方以及版权保护技术开发者阅读。

💡 推荐理由: 该研究提出了首个针对扩散桥模型的主动使用权控制机制，解决了现有水印等技术只能事后追溯而无法事前阻断的缺陷，为AI模型版权保护提供了新范式。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: William Aiken, Paula Branco, Guy-Vincent Jourdan, Iosif-Viorel Onut

本文提出了一种针对扩散模型（Diffusion Models）的新型后门攻击框架TEMPO-Diffusion。传统的基于噪声的后门攻击通常依赖于在推理时注入触发器、非目标激活以及生成分布外目标，这些假设降低了攻击的隐蔽性和实际相关性。TEMPO-Diffusion将恶意分布偏移限制在时间上的同分布暴露中，使得后门更加隐蔽。该框架支持：(i) 针对特定类别的攻击（攻击特定类别并生成特定类别结果）；(ii) 多子图像后门，即在多个不同输出图像和多个位置重建特定特征；(iii) 利用时间条件触发器的图像修复（in-painting）。为了研究使用带后门的扩散模型生成合成训练数据相关的实际安全问题，作者还引入了CALISA数据集：一个平衡的、区域感知的交通标志数据集，重点涵盖加拿大和美国的道路标志。在CIFAR10、GTSRB和CALISA上的实验表明，TEMPO-Diffusion能够可靠地污染特定类别的合成数据生成，并在使用该数据训练的下游分类器中实现高攻击成功率。本文的研究揭示了扩散模型在合成数据生成场景下可能被植入持续性后门的风险，对AI安全社区具有警示意义。

💡 推荐理由: 该研究首次提出时间条件触发的同分布后门攻击，显著提高了扩散模型后门的隐蔽性和实战性，对依赖扩散模型生成训练数据的AI供应链构成重大威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Toby Briston, Illya Kosyk, Kuniyih S

传感器是现代智能设备的关键组件。随着物联网和可穿戴移动设备的普及，传感器被广泛用于环境监测和预测行动。人体活动识别（HAR）是其中一个重要应用，它利用惯性测量单元（IMU）传感器（如加速度计和陀螺仪）来提供健康、训练和医疗诊断方面的洞见。然而，HAR模型的准确性受到数据不足的限制。基于扩散模型的技术已被证明能够成功生成合成数据来训练HAR模型。本文提出了一种后门训练技术IMU-DM-CLIP，该技术利用扩散模型和CLIP（对比语言-图像预训练）引导来对HAR模型实施基于触发器的攻击。实验分析表明，即使后门注入率仅为10%，且仅有10%的数据用于引导扩散模型，攻击依然能够成功。这项研究揭示了HAR模型在安全方面的潜在脆弱性，特别是当训练数据中包含后门触发样本时，模型可能被恶意操控，导致错误的识别结果。对于依赖HAR进行健康监测或安全关键应用的系统，这种攻击可能带来严重后果。论文的主要贡献在于首次将CLIP引导的扩散模型用于生成HAR领域的后门数据，展示了低注入率下攻击的高效性，并引发了关于传感器数据完整性和模型安全性的思考。适合安全研究人员和HAR系统开发者阅读，以了解此类新兴攻击向量。

💡 推荐理由: 该研究揭示了HAR模型面临的新型后门攻击风险，利用扩散模型生成后门数据，即使注入率极低也能成功攻击。对于使用HAR的健康监测、运动训练等应用，模型被植入后门可能导致错误行为预测，甚至危及用户安全。安全从业者需关注这一新兴威胁，并评估自身系统的防护能力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zekun Sun, Zijian Liu, Shouling Ji, Chenhao Lin, Na Ruan

本文提出了一种名为 Pretender 的新型主动防御方法，旨在防御针对扩散模型的微调攻击。扩散模型在文本到图像生成等领域取得显著进展，但微调阶段易被恶意利用以产生有害或侵权内容。Pretender 通过主动干扰微调过程，在模型发布前嵌入保护机制，使攻击者无法有效微调模型至恶意目的。该方法属于主动防御范畴，无需依赖攻击检测或后处理过滤。由于仅依据论文标题，具体技术细节、实验设置和性能指标尚不清楚，需进一步阅读原文获取。

💡 推荐理由: 随着扩散模型在创意产业中的广泛应用，模型微调攻击可能导致版权侵权、有害内容生成等严重问题。Pretender 提供了一种主动防御思路，从源头阻止恶意微调，对保护模型知识产权和生成安全具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

👥 作者: Chenyi Wang, Ruoyu Song, Raymond Muller, Jean-Philippe Monteuuis, Jonathan Petit, Z. Berkay Celik, Ryan Gerdes, Ming F. Li

本文提出 MIRAGE 框架，用于系统性地发现针对自动驾驶在线高清地图构建的语义攻击。自动驾驶车辆依赖高清地图感知车道线、分隔带、人行横道等安全关键元素，现有像素扰动攻击易被标准对抗防御（如对抗训练）中和。MIRAGE 利用扩散模型学习到的真实数据潜流形，搜索与真实场景具有相同道路拓扑但能误导地图预测的语义突变场景，例如阴影、湿滑路面等合法环境变化。在 nuScenes 数据集上评估了两种攻击：边界移除攻击抑制 57.7% 的检测结果，导致 96% 的规划轨迹被破坏；边界注入攻击是唯一能成功注入虚拟边界的方法，而像素级 PGD 和 AdvPatch 完全失败。两种攻击在多种对抗防御下仍保持有效性。通过两个独立 VLM 评判员量化真实感，MIRAGE 生成场景有 80–84% 的概率被认为真实（干净 nuScenes 为 97–99%，AdvPatch 仅 0–9%）。实验表明，语义级扰动作为合法的环境变化，比像素级扰动更难防御，揭示了当前对抗防御的类别性缺陷。

💡 推荐理由: 揭示了语义级环境扰动可绕过现有对抗防御，严重威胁自动驾驶地图感知安全，迫使防御机制从像素级转向语义级。

🎯 建议动作: 建议自动驾驶安全团队评估地图感知模块对语义扰动的鲁棒性，并探索基于扩散模型或物理仿真的对抗训练方法。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Florent Guépin, Cheick Tidiani Cisse, Denis Renaud, François Bidet, Arnaud Legendre

本文提出了一种名为 diffGHOST 的基于扩散模型的条件生成框架，用于合成移动轨迹数据，旨在解决轨迹数据在共享和利用过程中的隐私泄露问题。传统的轨迹合成方法往往隐式地假设生成模型具有隐私保护能力，但缺乏严格的隐私保证，且容易在生成的轨迹中记忆敏感样本。diffGHOST 通过引入潜在空间分割（latent space segmentation）机制，在扩散模型的训练和采样过程中识别并缓解对关键样本的记忆，从而在保证合成轨迹数据实用性的同时提供可证明的隐私保护。具体地，模型将轨迹数据编码到潜在空间，然后根据条件信息（如时间、区域等）分割潜在空间，并在每个片段上独立进行扩散和去噪过程，使得模型能够学习到分布特征而不过度拟合个别样本。实验在多个真实轨迹数据集上进行，结果表明 diffGHOST 在保持高轨迹实用性的同时，显著降低了隐私泄露风险，优于现有的生成对抗网络和变分自编码器基线方法。该工作为隐私保护下的移动数据分析提供了一种通用且有效的解决方案。

💡 推荐理由: 轨迹数据包含高度个人隐私信息，本工作提出了一种可在保证隐私的同时保持数据实用性的生成方法，对位置服务、智慧城市等场景的数据共享与发布具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Enoal Gesny, Eva Giboulot

本文针对生成式图像模型（特别是扩散模型）中的种子基水印技术，提出了一套从第一性原理出发的安全水印框架。当前的水印评估主要依赖经验实验，严重受限于具体的生成与反演模型架构，导致无法对方法的性能（尤其是安全性）进行严格结论，且缺乏统一的安全性定义。作者主张水印方案的有效性应通过彻底的理论分析来确立，为此提出了将模型依赖部分与水印系统的实际决策机制解耦的思想。基于该解耦，他们构建了一个正式的评估框架，涵盖安全性、鲁棒性和保真度三个维度，并通过一个特征曲面来精确比较不同水印系统在这三者之间的权衡，且该曲面独立于任何生成模型。在此框架下，作者提出了SSB（Secure Seed-Based）水印方法，该方法泛化了以往的种子基水印方案，能够通过调整特征曲面上的参数实现任意安全性-鲁棒性-保真度组合。本文为设计具有理论保证的现代水印系统开辟了道路，无需进行昂贵的经验评估即可获得性能保障。

💡 推荐理由: 为扩散模型水印提供了首个严格的理论评估框架，解决了现有方法依赖具体实验、缺乏安全定义的问题，对生成式AI内容溯源与防护具有基础性意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#diffusion-model

Black-box Membership Inference Attacks against Fine-tuned Diffusion Models.

No Prompt, No Leaks: A Robust Generative Steganography Framework via Prompt-Free Diffusion

GoodDiffusion: Proactive Copyright Protection for Diffusion Bridge Models via Learnable Sample-specific Signatures

TEMPO-Diffusion: Temporally Exposed Malicious Poisoning of Diffusion Models

CLIP-guided Diffusion Model for Backdoor Generation in Sensor-based Human Activity Recognition

Pretender: Universal Active Defense against Diffusion Finetuning Attacks.

Systematic Discovery of Semantic Attacks in Online Map Construction through Conditional Diffusion

diffGHOST: Diffusion based Generative Hedged Oblivious Synthetic Trajectories

Secure Seed-Based Multi-bit Watermarking for Diffusion Models from First Principles