#LSH 主题 - Cyber Security Daily Radar

👥 作者: Abdelrahman Abouelenein, Marwan Torki

该论文研究面向检索增强推理的差分隐私数据存储生成问题。现代设备端AI系统常依赖检索增强推理，需要共享或发布数据存储（datastore），但可能泄露个体隐私。差分隐私（DP）提供形式化保证，使个体贡献在对抗分析下不可区分。本文提出一种基于哈希的概率生成框架，用于创建和发布差分隐私数据存储。方法首先使用局部敏感哈希（LSH）将高维数据高效划分为多个桶（bucket），然后向每个桶的累积投票中添加校准的DP噪声，生成跨类别的概率分布。该方法适用于任何需要安全创建和发布键值数据存储的管道。在7个数据集上进行实验，样本量和类别数（2-14类）各异。在epsilon=5时，发布的DP数据存储在保持强隐私保护的同时，平均准确率仅下降2.6%。此外，对成员推断攻击的抵抗力进行基准测试，将攻击准确率降至53.60%。核心贡献包括：形式化定义差分隐私数据存储问题；提出实用的LSH+噪声注入框架；实验证明隐私与效用的平衡。适合隐私保护、检索增强系统、设备端AI的研究者和工程师阅读。

💡 推荐理由: 该研究解决了检索增强推理中数据存储共享的隐私泄露风险，提出的DP数据存储生成方法可平衡隐私与实用性，为设备端AI系统的安全部署提供关键技术支持。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#LSH

Differentially Private Datastore Generation for Retrieval-Augmented Inference