推荐 3.5
Conf: 50%
现代检索增强生成(RAG)系统将敏感内容转换为高维嵌入向量并存储在向量数据库中,这些数据库将产生的数值视为不透明数据。主流向量存储产品缺乏针对嵌入完整性、摄入时分布异常检测或加密来源证明的原生控制。本文揭示了一类隐写泄露攻击:拥有摄入管道写入权限的攻击者可以通过简单的后嵌入扰动(噪声注入、旋转、缩放、偏移、碎片化及其组合)将有效载荷数据隐藏在嵌入向量中,同时保持RAG系统向合法用户暴露的表面检索行为。作者在text-embedding-3-large、四个本地开源嵌入模型、跨语料库复制(BEIR NFCorpus和Quora子集,共超过26000个文本块)、七种向量存储配置、自适应攻击者检测评估以及释义查询检索基准上进行了评估。实验表明,分布偏移扰动常被简单异常检测器捕获;而小角度正交旋转能击败所有(模型,语料库)组合上的基于分布的检测。一种不相交Givens旋转编码器给出每个嵌入的闭式容量上限为floor(d/2)*b比特,但真实嵌入流形限制了容量-可检测性权衡,且保持检索的工作点远低于该上限。作者提出了VectorPin,一种加密来源协议,通过Ed25519签名将每个嵌入与其源内容和生成模型绑定,任何嵌入后的修改都会破坏签名验证。嵌入级完整性是一种可部署、可标准化的控制措施,能够封堵此类攻击。
💡 推荐理由: 该研究揭示了向量数据库中的隐写泄露风险,对依赖RAG处理敏感数据的企业构成直接威胁,并提出了一种实用的加密防御方案。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)