#geometric-refusal 主题 - Cyber Security Daily Radar

👥 作者: Shivam Ratnakar, Kartikeya Vats

该论文研究了大型语言模型（LLM）中安全拒绝机制的几何特性。作者提出了一种名为“对比对数几率引导”（CLS）的零优化框架，通过对比安全系统提示和不受限系统提示下的隐藏状态，提取出“拒绝方向”。与以往干预内部激活的表示工程方法不同，CLS直接作用于输出分布，作为对齐脆弱性的诊断探针。结合前缀注入以绕过初始拒绝反射，该方法可触发安全护栏的相变式崩溃。在7个模型系列上的实验表明，安全实现在架构上具有决定性：Llama-3.1等模型呈现“晚期决策”拓扑，容易被CLS绕过（攻击成功率95%，耗时约1秒）；而Qwen-2.5等模型则呈现“早期分歧”，在计算中途整合安全机制。与已有的激活层引导方法相比，CLS在Llama 2上实现了73%的攻击成功率（对比22.6%），在Qwen 7B上实现了91%（对比79.2%），表明对数几率层面的干预能暴露出隐藏状态方法低估的对齐漏洞。此外，该线性特性还支持双向控制：反向引导向量可“硬化”模型以抵御越狱攻击，无需重新训练。研究发现当前对齐技术创建了一个可操纵的“安全轴”，既是关键漏洞也是精确定义防御基元。

💡 推荐理由: 揭示了安全对齐LLM中拒绝机制存在可操纵的线性结构，证明当前对齐技术脆弱且可被高效利用，同时提供了利用同一线性特性进行防御的新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#geometric-refusal

The Geometry of Refusal: Linear Instability in Safety-Aligned LLMs