#embedding-security 主题 - Cyber Security Daily Radar

👥 作者: Sergey Kurilenko

该论文提出了一种名为 SHARD 的防御方法，旨在保护密集向量检索（如语义搜索和 RAG）中的嵌入向量不被反演攻击。现有攻击利用密集嵌入的全局几何结构，通过少量已知对齐对即可恢复秘密全局旋转（正交 Procrustes 方法）。SHARD 的核心思想是将中心化后的嵌入拆分为两部分：一个短的公共前缀（用于第一级检索）和一个私有的残差向量。残差向量被分片到 C 个单元中，每个单元使用独立的秘密密钥，并在 CKKS 同态加密下进行重排，密钥在计算中抵消，从而保留精确内积。参数 C 可调，从全局线性基线（C=1）到每个文档独享微密钥（C=N）。由于重排是全维度的，SHARD 可以恢复半 SVD 截断所牺牲的 nDCG@10 精度。同时，残差的密钥化单元使得在已知明文字典泄漏下，将残差映射回公共坐标系所需的锚点数量大约增加 C 倍（中位数从 200 到 102,400，当 C=256 时），且仅需少量加密查询。公共前缀泄露的邻域结构远少于全局嵌入，而微密钥机制使残差图在不可链接、可更新的模板下趋于零。该防御可抵抗学习型、非线性和无监督的对齐攻击。论文也坦承了局限性：单元内密钥相互抵消，目标攻击者只需约 d_priv 个锚点；若存在重叠的参考语料库，前缀仍可能泄露信息。SHARD 是一种攻击感知的几何防御，而非密码学保证。

💡 推荐理由: 该工作直接回应了 LLM 应用中向量数据库泄露导致的隐私风险，为安全从业者提供了一种可调节、可部署的嵌入保护方案，尤其适用于 RAG 场景。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Hiroyuki Deguchi, Katsuki Chousa, Yusuke Sakai

该论文研究了多模态编码器（如CLIP）在跨模态检索和评估任务中存在的“中心点”（hubness）问题。在高维嵌入空间中，某些嵌入点（称为hub）会与大量不相关样本具有高相似度，这可能导致跨模态相似性计算的异常。作者提出了一种方法，能够识别出这样的hub嵌入以及对应的hub文本。具体地，他们通过分析嵌入空间的分布特性，找到那些在多个查询中频繁成为近邻的嵌入点，并据此生成或筛选出hub文本。实验在MSCOCO和nocaps的图像描述评估任务，以及MSCOCO和Flickr30k的图像到文本检索任务上进行。结果表明，存在单个hub文本，其与大量图像计算得到的相似度分数，不合理地达到甚至超过了人工撰写的参考描述。这揭示了当前跨模态编码器的脆弱性：攻击者可能利用此类hub文本操纵检索结果或评估指标。论文的主要贡献是系统性地展示了hubness对跨模态编码器的实际威胁，并提供了诊断方法。适合关注多模态AI安全、信息检索鲁棒性的研究人员阅读。

💡 推荐理由: 该研究揭示了多模态编码器的结构性漏洞，单个文本即可污染检索或评估结果，威胁内容审核、图像搜索等应用的可靠性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#embedding-security

SHARD: cell-keyed residual splitting for alignment-resistant private dense retrieval

One Single Hub Text Breaks CLIP: Identifying Vulnerabilities in Cross-Modal Encoders via Hubness