#embedding-inversion

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Sergey Kurilenko

本文研究了一种混合隐私保护的语义搜索方案,旨在解决稠密向量嵌入在向量数据库泄露时面临的嵌入-反演攻击(即从向量重构原始文本)问题。传统的防御手段存在两个极端:完全同态加密虽然安全性强,但在百万级文档规模下延迟过高;而添加隐私噪声会在保护效果显现之前就严重破坏排序质量。本文提出一种利用静态集合与动态查询之间不对称性的中间路线:集合端采用几何保护,每个向量通过SVD截断到低维子空间,并经过只有集合所有者知道的秘密正交变换旋转;查询端采用密码学保护,使用CKKS同态加密对查询进行重排序,使得诚实且好奇的服务器无法看到查询或分数。CKKS参数通过离线小规模基准测试确定。理论方面,论文证明了任何局限于所保护子空间的攻击者的重构误差下界。实验在百万文档和五种编码器上进行,方案在亚秒级延迟下保持了排序质量(对于强编码器甚至略有提升,起到了线性降噪器的作用),并且现成的反演攻击在保护空间内退化为噪声水平。进一步,论文测试了更强的攻击者:已知明文攻击者可以通过正交Procrustes方法从约等于保留维度的泄露对中恢复旋转;公开的乘积量化码保留了大部最近邻结构;随机投影、校准噪声和BEIR基线表明,截断是一个依赖于编码器的精度代价,而非免费的降噪器。最后,论文明确了限制:查询机密性由密码学保证,但文档保护是经验性的混淆层(SVD截断加秘密旋转),而非密码学原语,并对每项主张划定了威胁模型边界。

💡 推荐理由: 向量数据库泄露导致语义嵌入反演攻击是RAG系统的核心风险。本文提出的混合方案首次在亚秒级延迟下实现了百万级文档的实用隐私保护,为业界提供了一种可落地的折中思路。

🎯 建议动作: 研究跟进,评估该方案在自身向量数据库场景下的可行性与精度损失。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)