#membership-inference-attack 主题 - Cyber Security Daily Radar

👥 作者: Xukun Luan, Jinyan Liu, Xuesong Li, Yuanguo Bi, Renjun Wu, Zhongxiang Lei, Di Wang

本文首次系统性地研究了视觉-语言-动作（VLA）模型在会员推断攻击（MIA）下的隐私脆弱性。VLA模型通过融合视觉、语言和动作信号实现端到端机器人控制，但训练数据的高昂采集成本使得数据记忆引发的隐私泄露和知识产权侵权问题尤为突出。会员推断攻击旨在判定给定样本是否属于训练集，然而现有研究尚未涉及VLA模型。为此，作者提出了VLALeaks攻击框架，利用VLA模型中注意力机制的差异进行攻击。该方法分为两个阶段：首先提取会员特征，即通过分析模型在不同输入上的注意力分布差异来捕捉会员信息；然后构建攻击模型，通过二分类器判断样本是否属于训练集。在多个VLA基准数据集上的实验表明，VLALeaks能够有效揭示会员信息，并在AUC和TPR@1%FPR指标上达到最优性能，充分暴露了当前VLA模型部署中的隐私隐患。该工作为构建安全可信的VLA模型提供了重要洞察。

💡 推荐理由: VLA模型正广泛应用于机器人控制，数据隐私泄漏将导致商业秘密和用户数据暴露。本研究首次揭示VLA模型的会员推断风险，对保障机器人系统数据安全至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jinghuai Zhang, Pengyue Yu, Zhexiao Lin, Kunlin Cai, Fnu Suya, Yuan Tian

本文提出 ImageAuditor，一种针对基于图像检索增强生成（IRAG）系统的成员推理攻击（MIA）方法。IRAG 系统利用外部数据库中的参考图像来增强冻结的生成器，支持文本到图像（T2I）和问答（Q&A）任务。由于这些数据库通常不透明且内容来自网络爬取，版权所有者需要审计特定图像是否出现在数据库中。现有的针对单模态文本 RAG 的 MIA 方法无法直接迁移到 IRAG，主要面临两个挑战：一是跨模态检索，无法像文本 RAG 那样通过将目标内容注入查询来强制检索目标图像；二是判别信号提取，IRAG 中的 T2I 生成器输出图像而非文本答案，难以通过问题回答提取成员信号。为克服这些挑战，ImageAuditor 将每个攻击查询分解为检索段和提取段，并分别进行优化。在检索段，提出奖励引导的策略优化（RGPO）方法，通过从奖励排序的候选中更新随机策略来导航跨模态嵌入空间，并具有有限样本最优性保证以平衡探索与利用。在提取段，分析 MIA 评分的分布以协同设计提示策略和评分规则，并为 T2I 和 Q&A 任务推导出特定实例化。通过 K-means 聚类聚合多个查询的信号以做出可靠的成员判断。实验表明，ImageAuditor 在多种 IRAG 系统上仅需每个被审计图像 4 个查询即可达到超过 80% 的 AUROC，并且在各种设置下均表现鲁棒。

💡 推荐理由: 首次提出针对图像多模态 RAG 系统的成员推断攻击，为版权审计和数据泄露风险提供了新的评估工具。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nguyen Linh Bao Nguyen, Wanlun Ma, Viet Vo, Alsharif Abuadbba, Minghong Fang, Jun Zhang, Yang Xiang

本文研究检索增强生成（RAG）系统中的成员推断攻击（MIA）问题。RAG通过将外部知识库引入LLM响应，有效减少幻觉，但同时也带来了新的隐私风险：攻击者可能通过模型输出推断检索语料库中是否存在特定文档，从而泄露敏感信息。现有MIA方法要么依赖于易被检测的模板化查询，要么需要大量非模板化但成本高昂的重复查询，实用性受限。本文提出MEntA（Membership Entailment Attack），一种查询高效且无需影子模型的成员推断攻击方法。MEntA利用自然语言蕴涵（entailment）最大化每次查询的信息增益：攻击者以低成本、广泛的信息寻求性问题进行提问，并度量模型回答与候选文档之间的蕴涵关系，从而判断文档是否被检索。该方法无需训练影子模型，也不需要大量查询预算。在NFCorpus、SCIDOCS和TREC-COVID三个数据集上的实验显示，MEntA仅需5次查询即可达到最高0.991的AUC，在同等条件下比现有方法提升0.20-0.50 AUC。同时，MEntA能够规避当前最先进的RAG防御机制，而现有检测器要么漏检MEntA，要么对良性查询误报率高。在成本方面，与同设置下的最新攻击相比，MEntA将总攻击成本降低至1/65。本文研究揭示了RAG系统中低成本隐私泄露的现实可行性，强调了对隐私感知检索和防御机制的迫切需求。适合安全研究人员、LLM部署者以及隐私工程师阅读。

💡 推荐理由: 本文揭示RAG系统存在低成本的成员推断攻击风险，仅需5个自然语言问题即可高精度推断语料库中是否存在特定文档，可能泄露企业机密或用户隐私数据。该攻击无需影子模型、查询量小且能逃避现有防御，对实际部署的RAG系统构成严重威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#membership-inference-attack

VLALeaks: Membership Inference Attacks against Vision-Language-Action Models

ImageAuditor: Membership Inference Attack against Image-based Retrieval-Augmented Generation

Five Queries Are Enough: Query-Efficient and Surrogate-Free Membership Inference Attacks on RAG via Entailment