推荐 5.5
Conf: 50%
大型语言模型(LLM)的多轮越狱攻击揭示了当前防护机制的缺陷:它们仅在单个对话轮次上运行,而攻击却作为跨对话的轨迹展开。本文提出从内容转向动态,将对话建模为表示空间中的路径,并探究对抗意图是否在对话早期就被编码在几何结构中。作者引入PsychoPass框架,从嵌入空间的对话轨迹中提取几何特征,以在有害内容产生之前预测潜在攻击。这些特征在朴素分类器中实现了近乎完美的性能,这很大程度上归因于轮次数量作为特征。去除这一混淆因素后,仍存在较小但一致的几何信号,且分类性能不依赖于编码器选择。关键的是,该信号在对话早期出现:仅使用短前缀,攻击结果仍高于随机水平,比基线防护更可靠。支持性理论分析通过长度和形状的分解、基于前缀长度的检测界以及编码器不变性解释了这些发现。结果表明,对抗性对话会留下早期、表示鲁棒的几何指纹,适用于在线监控。
💡 推荐理由: 该研究揭示了多轮对话越狱攻击在早期轨迹中留下的几何指纹,为在线监控提供了新思路,有望弥补现有单轮防护的盲区。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)