#embedding-collapse

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Becky Mashaido, Tapadhir Das

该论文揭示了当前基于检测的提示注入防御中存在的一个根本性盲区:高分类性能并不等同于表征鲁棒性。作者发现,当攻击者同时使用多种混淆操作(如同形字符替换、零宽字符插入、标点符号或表情符号噪声)时,被混淆的提示在预训练语言模型的嵌入空间中会部分坍缩到干净提示的流形上,这种现象被命名为“潜在嵌入坍缩”。实验基于多个不同深度和容量的BERT系列编码器进行,尽管所有检测器在分类任务上都达到了近乎完美的性能,但干净提示与混淆提示之间的最小边际距离仅为1.02,表明两者在潜在空间中几乎完全重叠。此外,混淆嵌入的类内方差高达3.33±6.23,远高于干净嵌入,显示出严重的潜在空间不稳定性。这些结果明确地表明存在一个“性能-鲁棒性差距”:标准评估指标完全无法捕获这种几何脆弱性。更值得注意的是,增加模型容量并不能缓解嵌入坍缩问题。因此,作者呼吁必须引入几何感知的鲁棒性分析作为当前基于性能评估的必要补充。该研究为安全社区敲响了警钟,提示现有的自动化防御可能在高精度掩蔽下存在结构性脆弱点。适合LLM安全研究人员、嵌入空间分析者以及防御系统设计者阅读。

💡 推荐理由: 该研究首次明确指出高检测性能可能掩盖严重的嵌入空间脆弱性,警告安全从业者不应仅依赖分类准确率来评估提示注入防御,必须重视几何鲁棒性分析。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)