#dense-retrieval 主题 - Cyber Security Daily Radar

👥 作者: Sergey Kurilenko

本文提出了一种名为SHARD的防御性嵌入变换方法，旨在保护密集向量检索（如语义搜索和RAG）中向量存储的隐私。传统防御方法（如全局随机旋转）存在弱点：攻击者可通过少量已知明文对（约子空间维度数量）利用正交Procrustes恢复旋转，从而重构原始文本。SHARD通过将中心化嵌入拆分为短公共前缀（用于第一阶段检索）和私密残差来解决此问题。私密残差被分割成C个单元（cell），每个单元使用独立密钥加密，并在CKKS同态加密下进行重排序，密钥抵消后内积保持不变。参数C从1（全局线性基线）到N（每文档微密钥）可调。SHARD保留了完全维度重排序，避免了半SVD截断带来的精度损失；且由于残差按单元密钥化，攻击者需将映射回公共坐标系所需的锚点数量增加约C倍（C=256时中位数从200增至102,400）以应对少量加密查询。短公共前缀泄露的邻居结构极少，而微密钥极限下残差图趋于零且模板可更新。实验表明，SHARD能有效抵御有监督、非线性及无监督对齐攻击，且在匹配效用的噪声防御几乎泄露每个探针时，SHARD完全去匿名化。但本文也诚实地指出了局限：单元内密钥抵消后，针对性攻击者仅需约d_priv个锚点；重叠参考语料库仍会通过前缀泄露信息。SHARD是一种攻击感知的几何防御，而非密码学保证。

💡 推荐理由: 向量检索隐私泄漏是当前RAG系统面临的重要威胁，SHARD提出了一种实用且可扩展的防御手段，显著提高了攻击者重构文本的成本，适合关注RAG安全、隐私保护的工程师和研究者。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#dense-retrieval

SHARD: cell-keyed residual splitting for alignment-resistant private dense retrieval