#prompt-stealing 主题 - Cyber Security Daily Radar

👥 作者: Shiqian Zhao, Chong Wang 0013, Yiming Li 0004, Yihao Huang 0001, Wenjie Qu 0001, Siew-Kei Lam, Yi Xie 0011, Kangjie Chen, Jie Zhang, Tianwei Zhang 0004

本文针对文本到图像（T2I）扩散模型（如DALL·E、Midjourney）中的提示词（prompt）窃取攻击展开研究。提示词是用户为生成高质量图像而精心设计的文本描述，具有知识产权价值，但在线展示作品时面临被窃取的风险。现有攻击方法依赖固定修饰词集和模型特定训练，泛化性差且效果有限。为此，作者提出Prometheus——一种无需训练、基于代理模型交互的搜索式提示词窃取攻击方法。核心创新有三：1）引入动态修饰词，利用NLP分析实时生成与目标图像更匹配的修饰词，作为静态修饰词的补充；2）设计上下文匹配算法对修饰词排序，缩小后续搜索空间；3）通过本地代理模型进行贪心搜索，根据反馈逐步优化提示词以提升重建保真度。实验证明，Prometheus在PromptBase、AIFrog等平台上对Midjourney、Leonardo.ai、DALL·E等不同模型均能成功提取提示词，攻击成功率提升25.0%，且对现有防御措施具有抗性，揭示了该攻击的严重性。本文适合AI安全研究者和防御工程师阅读，以理解提示词窃取威胁并设计相应防护。

💡 推荐理由: 提示词是T2I模型商业化的核心资产，本文揭示的新型攻击可大规模窃取创意作品背后的提示词，威胁创作生态与知识产权保护。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#prompt-stealing

Towards Effective Prompt Stealing Attack against Text-to-Image Diffusion Models.