本文研究检索增强生成(RAG)系统中的成员推断攻击(MIA)问题。RAG通过将外部知识库引入LLM响应,有效减少幻觉,但同时也带来了新的隐私风险:攻击者可能通过模型输出推断检索语料库中是否存在特定文档,从而泄露敏感信息。现有MIA方法要么依赖于易被检测的模板化查询,要么需要大量非模板化但成本高昂的重复查询,实用性受限。本文提出MEntA(Membership Entailment Attack),一种查询高效且无需影子模型的成员推断攻击方法。MEntA利用自然语言蕴涵(entailment)最大化每次查询的信息增益:攻击者以低成本、广泛的信息寻求性问题进行提问,并度量模型回答与候选文档之间的蕴涵关系,从而判断文档是否被检索。该方法无需训练影子模型,也不需要大量查询预算。在NFCorpus、SCIDOCS和TREC-COVID三个数据集上的实验显示,MEntA仅需5次查询即可达到最高0.991的AUC,在同等条件下比现有方法提升0.20-0.50 AUC。同时,MEntA能够规避当前最先进的RAG防御机制,而现有检测器要么漏检MEntA,要么对良性查询误报率高。在成本方面,与同设置下的最新攻击相比,MEntA将总攻击成本降低至1/65。本文研究揭示了RAG系统中低成本隐私泄露的现实可行性,强调了对隐私感知检索和防御机制的迫切需求。适合安全研究人员、LLM部署者以及隐私工程师阅读。
💡 推荐理由: 本文揭示RAG系统存在低成本的成员推断攻击风险,仅需5个自然语言问题即可高精度推断语料库中是否存在特定文档,可能泄露企业机密或用户隐私数据。该攻击无需影子模型、查询量小且能逃避现有防御,对实际部署的RAG系统构成严重威胁。
🎯 建议动作: 研究跟进