推荐 3.5
Conf: 50%
该论文研究面向检索增强推理的差分隐私数据存储生成问题。现代设备端AI系统常依赖检索增强推理,需要共享或发布数据存储(datastore),但可能泄露个体隐私。差分隐私(DP)提供形式化保证,使个体贡献在对抗分析下不可区分。本文提出一种基于哈希的概率生成框架,用于创建和发布差分隐私数据存储。方法首先使用局部敏感哈希(LSH)将高维数据高效划分为多个桶(bucket),然后向每个桶的累积投票中添加校准的DP噪声,生成跨类别的概率分布。该方法适用于任何需要安全创建和发布键值数据存储的管道。在7个数据集上进行实验,样本量和类别数(2-14类)各异。在epsilon=5时,发布的DP数据存储在保持强隐私保护的同时,平均准确率仅下降2.6%。此外,对成员推断攻击的抵抗力进行基准测试,将攻击准确率降至53.60%。核心贡献包括:形式化定义差分隐私数据存储问题;提出实用的LSH+噪声注入框架;实验证明隐私与效用的平衡。适合隐私保护、检索增强系统、设备端AI的研究者和工程师阅读。
💡 推荐理由: 该研究解决了检索增强推理中数据存储共享的隐私泄露风险,提出的DP数据存储生成方法可平衡隐私与实用性,为设备端AI系统的安全部署提供关键技术支持。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)