#adversarial-security

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Enoal Gesny, Eva Giboulot

本文针对生成式图像模型(特别是扩散模型)中的种子基水印技术,提出了一套从第一性原理出发的安全水印框架。当前的水印评估主要依赖经验实验,严重受限于具体的生成与反演模型架构,导致无法对方法的性能(尤其是安全性)进行严格结论,且缺乏统一的安全性定义。作者主张水印方案的有效性应通过彻底的理论分析来确立,为此提出了将模型依赖部分与水印系统的实际决策机制解耦的思想。基于该解耦,他们构建了一个正式的评估框架,涵盖安全性、鲁棒性和保真度三个维度,并通过一个特征曲面来精确比较不同水印系统在这三者之间的权衡,且该曲面独立于任何生成模型。在此框架下,作者提出了SSB(Secure Seed-Based)水印方法,该方法泛化了以往的种子基水印方案,能够通过调整特征曲面上的参数实现任意安全性-鲁棒性-保真度组合。本文为设计具有理论保证的现代水印系统开辟了道路,无需进行昂贵的经验评估即可获得性能保障。

💡 推荐理由: 为扩散模型水印提供了首个严格的理论评估框架,解决了现有方法依赖具体实验、缺乏安全定义的问题,对生成式AI内容溯源与防护具有基础性意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shiqian Zhao, Chong Wang 0013, Yiming Li 0004, Yihao Huang 0001, Wenjie Qu 0001, Siew-Kei Lam, Yi Xie 0011, Kangjie Chen, Jie Zhang, Tianwei Zhang 0004

本文针对文本到图像(T2I)扩散模型(如DALL·E、Midjourney)中的提示词(prompt)窃取攻击展开研究。提示词是用户为生成高质量图像而精心设计的文本描述,具有知识产权价值,但在线展示作品时面临被窃取的风险。现有攻击方法依赖固定修饰词集和模型特定训练,泛化性差且效果有限。为此,作者提出Prometheus——一种无需训练、基于代理模型交互的搜索式提示词窃取攻击方法。核心创新有三:1)引入动态修饰词,利用NLP分析实时生成与目标图像更匹配的修饰词,作为静态修饰词的补充;2)设计上下文匹配算法对修饰词排序,缩小后续搜索空间;3)通过本地代理模型进行贪心搜索,根据反馈逐步优化提示词以提升重建保真度。实验证明,Prometheus在PromptBase、AIFrog等平台上对Midjourney、Leonardo.ai、DALL·E等不同模型均能成功提取提示词,攻击成功率提升25.0%,且对现有防御措施具有抗性,揭示了该攻击的严重性。本文适合AI安全研究者和防御工程师阅读,以理解提示词窃取威胁并设计相应防护。

💡 推荐理由: 提示词是T2I模型商业化的核心资产,本文揭示的新型攻击可大规模窃取创意作品背后的提示词,威胁创作生态与知识产权保护。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)