#dense-retrieval

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Sergey Kurilenko

本文提出了一种名为SHARD的防御性嵌入变换方法,旨在保护密集向量检索(如语义搜索和RAG)中向量存储的隐私。传统防御方法(如全局随机旋转)存在弱点:攻击者可通过少量已知明文对(约子空间维度数量)利用正交Procrustes恢复旋转,从而重构原始文本。SHARD通过将中心化嵌入拆分为短公共前缀(用于第一阶段检索)和私密残差来解决此问题。私密残差被分割成C个单元(cell),每个单元使用独立密钥加密,并在CKKS同态加密下进行重排序,密钥抵消后内积保持不变。参数C从1(全局线性基线)到N(每文档微密钥)可调。SHARD保留了完全维度重排序,避免了半SVD截断带来的精度损失;且由于残差按单元密钥化,攻击者需将映射回公共坐标系所需的锚点数量增加约C倍(C=256时中位数从200增至102,400)以应对少量加密查询。短公共前缀泄露的邻居结构极少,而微密钥极限下残差图趋于零且模板可更新。实验表明,SHARD能有效抵御有监督、非线性及无监督对齐攻击,且在匹配效用的噪声防御几乎泄露每个探针时,SHARD完全去匿名化。但本文也诚实地指出了局限:单元内密钥抵消后,针对性攻击者仅需约d_priv个锚点;重叠参考语料库仍会通过前缀泄露信息。SHARD是一种攻击感知的几何防御,而非密码学保证。

💡 推荐理由: 向量检索隐私泄漏是当前RAG系统面临的重要威胁,SHARD提出了一种实用且可扩展的防御手段,显著提高了攻击者重构文本的成本,适合关注RAG安全、隐私保护的工程师和研究者。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)