#vector-database 主题 - Cyber Security Daily Radar

👥 作者: Sergey Kurilenko

该论文提出了一种名为 SHARD 的防御方法，旨在保护密集向量检索（如语义搜索和 RAG）中的嵌入向量不被反演攻击。现有攻击利用密集嵌入的全局几何结构，通过少量已知对齐对即可恢复秘密全局旋转（正交 Procrustes 方法）。SHARD 的核心思想是将中心化后的嵌入拆分为两部分：一个短的公共前缀（用于第一级检索）和一个私有的残差向量。残差向量被分片到 C 个单元中，每个单元使用独立的秘密密钥，并在 CKKS 同态加密下进行重排，密钥在计算中抵消，从而保留精确内积。参数 C 可调，从全局线性基线（C=1）到每个文档独享微密钥（C=N）。由于重排是全维度的，SHARD 可以恢复半 SVD 截断所牺牲的 nDCG@10 精度。同时，残差的密钥化单元使得在已知明文字典泄漏下，将残差映射回公共坐标系所需的锚点数量大约增加 C 倍（中位数从 200 到 102,400，当 C=256 时），且仅需少量加密查询。公共前缀泄露的邻域结构远少于全局嵌入，而微密钥机制使残差图在不可链接、可更新的模板下趋于零。该防御可抵抗学习型、非线性和无监督的对齐攻击。论文也坦承了局限性：单元内密钥相互抵消，目标攻击者只需约 d_priv 个锚点；若存在重叠的参考语料库，前缀仍可能泄露信息。SHARD 是一种攻击感知的几何防御，而非密码学保证。

💡 推荐理由: 该工作直接回应了 LLM 应用中向量数据库泄露导致的隐私风险，为安全从业者提供了一种可调节、可部署的嵌入保护方案，尤其适用于 RAG 场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sergey Kurilenko

本文研究了一种混合隐私保护的语义搜索方案，旨在解决稠密向量嵌入在向量数据库泄露时面临的嵌入-反演攻击（即从向量重构原始文本）问题。传统的防御手段存在两个极端：完全同态加密虽然安全性强，但在百万级文档规模下延迟过高；而添加隐私噪声会在保护效果显现之前就严重破坏排序质量。本文提出一种利用静态集合与动态查询之间不对称性的中间路线：集合端采用几何保护，每个向量通过SVD截断到低维子空间，并经过只有集合所有者知道的秘密正交变换旋转；查询端采用密码学保护，使用CKKS同态加密对查询进行重排序，使得诚实且好奇的服务器无法看到查询或分数。CKKS参数通过离线小规模基准测试确定。理论方面，论文证明了任何局限于所保护子空间的攻击者的重构误差下界。实验在百万文档和五种编码器上进行，方案在亚秒级延迟下保持了排序质量（对于强编码器甚至略有提升，起到了线性降噪器的作用），并且现成的反演攻击在保护空间内退化为噪声水平。进一步，论文测试了更强的攻击者：已知明文攻击者可以通过正交Procrustes方法从约等于保留维度的泄露对中恢复旋转；公开的乘积量化码保留了大部最近邻结构；随机投影、校准噪声和BEIR基线表明，截断是一个依赖于编码器的精度代价，而非免费的降噪器。最后，论文明确了限制：查询机密性由密码学保证，但文档保护是经验性的混淆层（SVD截断加秘密旋转），而非密码学原语，并对每项主张划定了威胁模型边界。

💡 推荐理由: 向量数据库泄露导致语义嵌入反演攻击是RAG系统的核心风险。本文提出的混合方案首次在亚秒级延迟下实现了百万级文档的实用隐私保护，为业界提供了一种可落地的折中思路。

🎯 建议动作: 研究跟进，评估该方案在自身向量数据库场景下的可行性与精度损失。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chandranil Chakraborttii, Jackeline García Alvarado, Sitora Abdulofizova, Shivanshu Dwivedi

本文针对检索增强生成（RAG）流水线中广泛使用的分层可导航小世界（HNSW）向量数据库，揭示了软删除操作的严重安全隐患。当用户请求删除数据时，系统通常仅将记录标记为已删除，而实际嵌入在磁盘上保持不变，这违反了GDPR第17条和HIPAA等数据擦除与保留法规。作者在三个HNSW实现上验证，通过直接访问存储层的原始索引文件（绕过API）即可物理恢复已删除的向量。利用无需领域微调的Vec2Text反转模型，在多个真实数据集上展示了该漏洞：在维基百科在世人物数据集（BLP）上成功恢复25.5%的准确人名和46.4%的地理位置（ROUGE-L 0.185）；在高度结构化的敏感数据（NIH Synthea数据集）上，患者年龄和性别的恢复率达到100%（ROUGE-L 0.290）；在软删除的图像嵌入上，组织病理学切片的组织分类准确率为100%（p=1.02e-07），面部嵌入的top-1身份恢复率达99%（p<0.01）。作为防御，本文提出了Epoch密钥轮换机制：对向量进行加密，删除时丢弃密钥。该机制将观察到的PII恢复率降至0%，处理500个已删除向量仅需2.5毫秒（约0.005毫秒/条），并生成ECDSA签名的加密证明作为删除事件的可审计记录。本研究适合向量数据库开发者、RAG系统构建者、隐私合规工程师以及关注数据持久性安全的研究人员阅读。

💡 推荐理由: 该研究揭示了HNSW向量数据库中软删除操作被忽视的安全风险，直接威胁GDPR/HIPAA合规性，并提出了高效、可审计的防御方案（Epoch密钥轮换），对保障RAG系统中的敏感数据隐私具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.8)

👥 作者: Jascha Wanger

现代检索增强生成（RAG）系统将敏感内容转换为高维嵌入向量并存储在向量数据库中，这些数据库将产生的数值视为不透明数据。主流向量存储产品缺乏针对嵌入完整性、摄入时分布异常检测或加密来源证明的原生控制。本文揭示了一类隐写泄露攻击：拥有摄入管道写入权限的攻击者可以通过简单的后嵌入扰动（噪声注入、旋转、缩放、偏移、碎片化及其组合）将有效载荷数据隐藏在嵌入向量中，同时保持RAG系统向合法用户暴露的表面检索行为。作者在text-embedding-3-large、四个本地开源嵌入模型、跨语料库复制（BEIR NFCorpus和Quora子集，共超过26000个文本块）、七种向量存储配置、自适应攻击者检测评估以及释义查询检索基准上进行了评估。实验表明，分布偏移扰动常被简单异常检测器捕获；而小角度正交旋转能击败所有（模型，语料库）组合上的基于分布的检测。一种不相交Givens旋转编码器给出每个嵌入的闭式容量上限为floor(d/2)*b比特，但真实嵌入流形限制了容量-可检测性权衡，且保持检索的工作点远低于该上限。作者提出了VectorPin，一种加密来源协议，通过Ed25519签名将每个嵌入与其源内容和生成模型绑定，任何嵌入后的修改都会破坏签名验证。嵌入级完整性是一种可部署、可标准化的控制措施，能够封堵此类攻击。

💡 推荐理由: 该研究揭示了向量数据库中的隐写泄露风险，对依赖RAG处理敏感数据的企业构成直接威胁，并提出了一种实用的加密防御方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#vector-database

SHARD: cell-keyed residual splitting for alignment-resistant private dense retrieval

Hybrid privacy-aware semantic search: SVD-truncated document geometry and CKKS-encrypted query reranking under a restricted threat model

Ghost Vectors: Soft-Deleted Embeddings Remain Reconstructible in HNSW Vector Databases

VectorSmuggle: Steganographic Exfiltration in Embedding Stores and a Cryptographic Provenance Defense