#llm-privacy 主题 - Cyber Security Daily Radar

👥 作者: Nguyen Linh Bao Nguyen, Wanlun Ma, Viet Vo, Alsharif Abuadbba, Minghong Fang, Jun Zhang, Yang Xiang

本文研究检索增强生成（RAG）系统中的成员推断攻击（MIA）问题。RAG通过将外部知识库引入LLM响应，有效减少幻觉，但同时也带来了新的隐私风险：攻击者可能通过模型输出推断检索语料库中是否存在特定文档，从而泄露敏感信息。现有MIA方法要么依赖于易被检测的模板化查询，要么需要大量非模板化但成本高昂的重复查询，实用性受限。本文提出MEntA（Membership Entailment Attack），一种查询高效且无需影子模型的成员推断攻击方法。MEntA利用自然语言蕴涵（entailment）最大化每次查询的信息增益：攻击者以低成本、广泛的信息寻求性问题进行提问，并度量模型回答与候选文档之间的蕴涵关系，从而判断文档是否被检索。该方法无需训练影子模型，也不需要大量查询预算。在NFCorpus、SCIDOCS和TREC-COVID三个数据集上的实验显示，MEntA仅需5次查询即可达到最高0.991的AUC，在同等条件下比现有方法提升0.20-0.50 AUC。同时，MEntA能够规避当前最先进的RAG防御机制，而现有检测器要么漏检MEntA，要么对良性查询误报率高。在成本方面，与同设置下的最新攻击相比，MEntA将总攻击成本降低至1/65。本文研究揭示了RAG系统中低成本隐私泄露的现实可行性，强调了对隐私感知检索和防御机制的迫切需求。适合安全研究人员、LLM部署者以及隐私工程师阅读。

💡 推荐理由: 本文揭示RAG系统存在低成本的成员推断攻击风险，仅需5个自然语言问题即可高精度推断语料库中是否存在特定文档，可能泄露企业机密或用户隐私数据。该攻击无需影子模型、查询量小且能逃避现有防御，对实际部署的RAG系统构成严重威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Kyzyl Monteiro, Minjung Park, Alexander Ioffrida, Angelina Sanna, Hao-Ping, Lee, Niloofar Mireshghallah, Yang Wang, Sauvik Das

本研究聚焦于大型语言模型（LLM）在对话中推断用户个人信息（如收入、病史等）所引发的隐私问题。以往研究已证明LLM能够做出潜在违反用户预期的推断，但用户对此类推断的实际感受及期望的控制机制尚不明确。为此，作者开发了“反思层”（Reflective Layer）可视化工具，它能够从用户的ChatGPT历史对话中提取出未明确陈述的推断示例。通过混合研究方法，对18名ChatGPT长期用户进行实验，共评估了215个从他们自身对话中提取的推断。出乎意料的是，参与者的主要反应是好奇和兴趣，而非困扰或担忧。不舒适感主要出现在推断被用户认为“不具代表性”或“与预期用途不符”时。此外，参与者对广告商或第三方应用使用这些推断的接受度显著低于平台提供商。这些发现表明，LLM推断的可接受性不仅取决于推断内容，还受到关于推断如何生成、在平台内保留以及传输到平台外部的上下文敏感性规范的制约。该研究为设计更符合用户期望的LLM隐私控制机制提供了实证依据。

💡 推荐理由: 揭示了LLM推理用户隐私信息时用户真实感受与隐私期望的差异，为安全从业者设计隐私保护机制、合规管理及用户界面提供重要参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zheng Liu, Chen Gong 0005, Terry Yue Zhuo, Kecen Li, Weichen Yu, Matt Fredrikson, Tianhao Wang

该论文提出了PrivCode，这是首个专门为代码数据集设计的差分隐私（DP）合成器，旨在解决大型语言模型（LLM）在代码生成时微调私有数据集可能引发的隐私泄露问题。传统的DP方法在代码数据上面临语法依赖强和隐私-效用权衡的挑战。PrivCode采用两阶段框架：第一阶段“隐私净化”，利用DP-SGD训练模型生成符合差分隐私的合成代码，并通过引入语法信息保留代码结构；第二阶段“效用提升”，在合成的无隐私代码上微调更大的预训练LLM，以缓解DP带来的效用损失。在四个LLM和四个基准测试上的实验表明，PrivCode在各种任务下生成的代码具有更高的效用，同时在不同隐私预算下能保护敏感数据。该研究为代码领域的隐私保护生成提供了新的方法论，适合对差分隐私、代码生成和LLM隐私保护感兴趣的研究者阅读。

💡 推荐理由: 首次将差分隐私合成技术应用于代码数据集，提出两阶段框架平衡隐私与效用，对保护企业专有代码和用户隐私有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xue Tan, Hao Luan, Mingyu Luo, Zhuyang Yu, Jun Dai 0001, Xiaoyan Sun 0003, Ping Chen 0003

本文研究了针对开源大语言模型（LLMs）的成员推理攻击（Membership Inference Attack, MIA），即判断特定数据样本是否被用于模型训练。与现有基于模型输出（如loss、logits）的MIA方法不同，作者提出利用模型内部的神经激活（neural activations）来区分成员和非成员样本。具体地，他们设计了一种攻击方法，通过提取目标模型在特定层上的激活值，并训练一个二元分类器（如逻辑回归或MLP）来预测成员关系。实验在多个开源LLM（如GPT-2、LLaMA、OPT等）和多种数据集（如新闻、医疗、代码）上进行，结果表明基于激活的方法显著优于输出基方法，在低假阳性率下取得高召回率。此外，作者分析了不同模型层、不同样本长度对攻击性能的影响，并探讨了防御措施（如差分隐私训练、激活剪枝）的有效性。该研究揭示了LLM内部状态泄露训练数据的风险，为模型隐私评估提供了新工具。

💡 推荐理由: 该方法通过模型内部激活实现更精准的成员推理，对使用开源LLM的组织构成数据泄露风险，尤其涉及合规场景（如GDPR）。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Karima Makhlouf, Lamiaa Basyoni, Syed Khaderi, Gabriel Marquez, Peter Sotomango, Mahmoud Awawdah, Sami Zhioua

大型语言模型（LLMs）在交互式和检索增强场景中日益部署，引发了显著的隐私担忧。以往的研究通常孤立地分析成员推断攻击（MIA）、属性推断攻击（AIA）、数据提取攻击（DEA）和后门攻击（BA），缺乏对它们在常见系统因素下行为的统一理解。本文首先建立了一个统一的威胁模型和符号体系，复现了一组具有代表性的隐私攻击，随后开展结构化消融研究，系统评估模型架构、规模、数据集特征以及检索配置等关键因素对攻击效果的影响。实验发现：基于掩码的成员推断攻击表现出强且稳定的信号；后门攻击凭借其触发机制获得始终如一的高成功率；属性推断和数据提取攻击仍具挑战，准确率较低，但因其针对敏感个人信息而风险突出。总体而言，LLM系统中的隐私风险高度依赖上下文，并受设计选择驱动，强调了全面评估和知情部署实践的必要性。

💡 推荐理由: 该工作统一了多种隐私攻击的评估框架，揭示出攻击效果对模型选择、数据集配置等系统因素的依赖性，有助于安全团队在部署LLM时进行更精准的隐私风险评估。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#llm-privacy

Five Queries Are Enough: Query-Efficient and Surrogate-Free Membership Inference Attacks on RAG via Entailment

When Are LLM Inferences Acceptable? User Reactions and Control Preferences for Inferred Personal Information

PrivCode: When Code Generation Meets Differential Privacy.

Was My Data Used for Training? Membership Inference in Open-Source LLMs via Neural Activations.

On the Privacy of LLMs: An Ablation Study