#geometric-refusal

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Shivam Ratnakar, Kartikeya Vats

该论文研究了大型语言模型(LLM)中安全拒绝机制的几何特性。作者提出了一种名为“对比对数几率引导”(CLS)的零优化框架,通过对比安全系统提示和不受限系统提示下的隐藏状态,提取出“拒绝方向”。与以往干预内部激活的表示工程方法不同,CLS直接作用于输出分布,作为对齐脆弱性的诊断探针。结合前缀注入以绕过初始拒绝反射,该方法可触发安全护栏的相变式崩溃。在7个模型系列上的实验表明,安全实现在架构上具有决定性:Llama-3.1等模型呈现“晚期决策”拓扑,容易被CLS绕过(攻击成功率95%,耗时约1秒);而Qwen-2.5等模型则呈现“早期分歧”,在计算中途整合安全机制。与已有的激活层引导方法相比,CLS在Llama 2上实现了73%的攻击成功率(对比22.6%),在Qwen 7B上实现了91%(对比79.2%),表明对数几率层面的干预能暴露出隐藏状态方法低估的对齐漏洞。此外,该线性特性还支持双向控制:反向引导向量可“硬化”模型以抵御越狱攻击,无需重新训练。研究发现当前对齐技术创建了一个可操纵的“安全轴”,既是关键漏洞也是精确定义防御基元。

💡 推荐理由: 揭示了安全对齐LLM中拒绝机制存在可操纵的线性结构,证明当前对齐技术脆弱且可被高效利用,同时提供了利用同一线性特性进行防御的新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)