推荐 9.5
Conf: 50%
本文针对文本到图像(T2I)扩散模型(如DALL·E、Midjourney)中的提示词(prompt)窃取攻击展开研究。提示词是用户为生成高质量图像而精心设计的文本描述,具有知识产权价值,但在线展示作品时面临被窃取的风险。现有攻击方法依赖固定修饰词集和模型特定训练,泛化性差且效果有限。为此,作者提出Prometheus——一种无需训练、基于代理模型交互的搜索式提示词窃取攻击方法。核心创新有三:1)引入动态修饰词,利用NLP分析实时生成与目标图像更匹配的修饰词,作为静态修饰词的补充;2)设计上下文匹配算法对修饰词排序,缩小后续搜索空间;3)通过本地代理模型进行贪心搜索,根据反馈逐步优化提示词以提升重建保真度。实验证明,Prometheus在PromptBase、AIFrog等平台上对Midjourney、Leonardo.ai、DALL·E等不同模型均能成功提取提示词,攻击成功率提升25.0%,且对现有防御措施具有抗性,揭示了该攻击的严重性。本文适合AI安全研究者和防御工程师阅读,以理解提示词窃取威胁并设计相应防护。
💡 推荐理由: 提示词是T2I模型商业化的核心资产,本文揭示的新型攻击可大规模窃取创意作品背后的提示词,威胁创作生态与知识产权保护。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)