本文提出 ImageAuditor,一种针对基于图像检索增强生成(IRAG)系统的成员推理攻击(MIA)方法。IRAG 系统利用外部数据库中的参考图像来增强冻结的生成器,支持文本到图像(T2I)和问答(Q&A)任务。由于这些数据库通常不透明且内容来自网络爬取,版权所有者需要审计特定图像是否出现在数据库中。现有的针对单模态文本 RAG 的 MIA 方法无法直接迁移到 IRAG,主要面临两个挑战:一是跨模态检索,无法像文本 RAG 那样通过将目标内容注入查询来强制检索目标图像;二是判别信号提取,IRAG 中的 T2I 生成器输出图像而非文本答案,难以通过问题回答提取成员信号。为克服这些挑战,ImageAuditor 将每个攻击查询分解为检索段和提取段,并分别进行优化。在检索段,提出奖励引导的策略优化(RGPO)方法,通过从奖励排序的候选中更新随机策略来导航跨模态嵌入空间,并具有有限样本最优性保证以平衡探索与利用。在提取段,分析 MIA 评分的分布以协同设计提示策略和评分规则,并为 T2I 和 Q&A 任务推导出特定实例化。通过 K-means 聚类聚合多个查询的信号以做出可靠的成员判断。实验表明,ImageAuditor 在多种 IRAG 系统上仅需每个被审计图像 4 个查询即可达到超过 80% 的 AUROC,并且在各种设置下均表现鲁棒。
💡 推荐理由: 首次提出针对图像多模态 RAG 系统的成员推断攻击,为版权审计和数据泄露风险提供了新的评估工具。
🎯 建议动作: 研究跟进