#geometric-profiling 主题 - Cyber Security Daily Radar

👥 作者: Muberra Ozmen, Subhabrata Majumdar

大型语言模型（LLM）的多轮越狱攻击揭示了当前防护机制的缺陷：它们仅在单个对话轮次上运行，而攻击却作为跨对话的轨迹展开。本文提出从内容转向动态，将对话建模为表示空间中的路径，并探究对抗意图是否在对话早期就被编码在几何结构中。作者引入PsychoPass框架，从嵌入空间的对话轨迹中提取几何特征，以在有害内容产生之前预测潜在攻击。这些特征在朴素分类器中实现了近乎完美的性能，这很大程度上归因于轮次数量作为特征。去除这一混淆因素后，仍存在较小但一致的几何信号，且分类性能不依赖于编码器选择。关键的是，该信号在对话早期出现：仅使用短前缀，攻击结果仍高于随机水平，比基线防护更可靠。支持性理论分析通过长度和形状的分解、基于前缀长度的检测界以及编码器不变性解释了这些发现。结果表明，对抗性对话会留下早期、表示鲁棒的几何指纹，适用于在线监控。

💡 推荐理由: 该研究揭示了多轮对话越狱攻击在早期轨迹中留下的几何指纹，为在线监控提供了新思路，有望弥补现有单轮防护的盲区。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#geometric-profiling

PsychoPass: Geometric Profiling of Multi-Turn Adversarial LLM Conversations