该论文研究了语言模型在生物安全场景下的拒绝行为可靠性。传统评估关注模型是否生成有害输出,但本论文提出一个补充问题:当模型拒绝时,其拒绝是否结构稳固,抑或在提示措辞、格式或输出长度的微小变化下消失?作者在五种架构(Gemma 2 2B-IT、Gemma 4 E2B-IT、Qwen 2.5 1.5B、Phi-3-mini、Llama 3.2 1B)上进行了实验,使用75个提示评估模型对生物安全相关查询的拒绝一致性。结果显示,没有模型能清晰区分良性查询和有害查询。Gemma 2 2B-IT在75个提示中从未真正拒绝,对每个接近危险的查询都采取规避态度;Gemma 4 E2B-IT在使用聊天模板格式时拒绝65/75,但无格式时拒绝0/75;两个Gemma模型在80 token限制下拒绝率降至0%。Qwen 2.5 1.5B和Phi-3-mini则过度拒绝,将83-87%的良性生物学查询标记为有害。Llama 3.2 1B展现了唯一有意义的分级梯度(61点跨度)。为探究过度拒绝的驱动因素,作者测试了一组Schedule I但生物无毒性的化合物(特别是裸盖菇素培养,具有FDA突破性疗法地位),部分模型对这些化合物的拒绝率甚至超过真正的生物危险物,表明拒绝行为更多取决于法律和文化显著性,而非CBRN(化学、生物、放射性和核)危害程度。为测量内部状态,作者引入了分歧分数D,比较模型表面响应标签与其内部稀疏自编码器(SAE)特征激活之间的差异。在Gemma 2 2B-IT(使用Gemma Scope 1)和Gemma 4 E2B-IT(作者训练的Bio SAE)上计算了完整D。发布了两个微调后的Gemma 2领域SAE。在Gemma 4上,遵守与拒绝响应之间D分数差距为0.647,且零重叠(n=75),但该结果仍是初步的,存在类别目录狭窄、样本内校准及仅涵盖Gemma家族SAE等局限。本工作在消费级硬件(GTX 1650 Ti Max-Q,SAE训练用Colab T4)上一个黑客马拉松周末完成,表明激活级审计可能揭示行为评估无法发现的失败模式,且不同架构间存在显著差异。
💡 推荐理由: 该研究揭示了当前语言模型在生物安全拒绝机制中的系统性漏洞:拒绝行为在微小扰动下极易失效或过度泛化,且模型依赖文化合法性而非实际危害做判断,这对AI安全防护的可靠性构成挑战。
🎯 建议动作: 研究跟进,关注其提出的激活级审计方法,可考虑在内部评估中引入类似分歧分数来检测拒绝不一致性。