#membership-inference-attack

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Jinghuai Zhang, Pengyue Yu, Zhexiao Lin, Kunlin Cai, Fnu Suya, Yuan Tian

本文提出 ImageAuditor,一种针对基于图像检索增强生成(IRAG)系统的成员推理攻击(MIA)方法。IRAG 系统利用外部数据库中的参考图像来增强冻结的生成器,支持文本到图像(T2I)和问答(Q&A)任务。由于这些数据库通常不透明且内容来自网络爬取,版权所有者需要审计特定图像是否出现在数据库中。现有的针对单模态文本 RAG 的 MIA 方法无法直接迁移到 IRAG,主要面临两个挑战:一是跨模态检索,无法像文本 RAG 那样通过将目标内容注入查询来强制检索目标图像;二是判别信号提取,IRAG 中的 T2I 生成器输出图像而非文本答案,难以通过问题回答提取成员信号。为克服这些挑战,ImageAuditor 将每个攻击查询分解为检索段和提取段,并分别进行优化。在检索段,提出奖励引导的策略优化(RGPO)方法,通过从奖励排序的候选中更新随机策略来导航跨模态嵌入空间,并具有有限样本最优性保证以平衡探索与利用。在提取段,分析 MIA 评分的分布以协同设计提示策略和评分规则,并为 T2I 和 Q&A 任务推导出特定实例化。通过 K-means 聚类聚合多个查询的信号以做出可靠的成员判断。实验表明,ImageAuditor 在多种 IRAG 系统上仅需每个被审计图像 4 个查询即可达到超过 80% 的 AUROC,并且在各种设置下均表现鲁棒。

💡 推荐理由: 首次提出针对图像多模态 RAG 系统的成员推断攻击,为版权审计和数据泄露风险提供了新的评估工具。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Nguyen Linh Bao Nguyen, Wanlun Ma, Viet Vo, Alsharif Abuadbba, Minghong Fang, Jun Zhang, Yang Xiang

本文研究检索增强生成(RAG)系统中的成员推断攻击(MIA)问题。RAG通过将外部知识库引入LLM响应,有效减少幻觉,但同时也带来了新的隐私风险:攻击者可能通过模型输出推断检索语料库中是否存在特定文档,从而泄露敏感信息。现有MIA方法要么依赖于易被检测的模板化查询,要么需要大量非模板化但成本高昂的重复查询,实用性受限。本文提出MEntA(Membership Entailment Attack),一种查询高效且无需影子模型的成员推断攻击方法。MEntA利用自然语言蕴涵(entailment)最大化每次查询的信息增益:攻击者以低成本、广泛的信息寻求性问题进行提问,并度量模型回答与候选文档之间的蕴涵关系,从而判断文档是否被检索。该方法无需训练影子模型,也不需要大量查询预算。在NFCorpus、SCIDOCS和TREC-COVID三个数据集上的实验显示,MEntA仅需5次查询即可达到最高0.991的AUC,在同等条件下比现有方法提升0.20-0.50 AUC。同时,MEntA能够规避当前最先进的RAG防御机制,而现有检测器要么漏检MEntA,要么对良性查询误报率高。在成本方面,与同设置下的最新攻击相比,MEntA将总攻击成本降低至1/65。本文研究揭示了RAG系统中低成本隐私泄露的现实可行性,强调了对隐私感知检索和防御机制的迫切需求。适合安全研究人员、LLM部署者以及隐私工程师阅读。

💡 推荐理由: 本文揭示RAG系统存在低成本的成员推断攻击风险,仅需5个自然语言问题即可高精度推断语料库中是否存在特定文档,可能泄露企业机密或用户隐私数据。该攻击无需影子模型、查询量小且能逃避现有防御,对实际部署的RAG系统构成严重威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)