#safety evaluation 主题 - Cyber Security Daily Radar

👥 作者: Sahil Kadadekar

本文系统性地审计了量化大语言模型（LLM）安全评估中的一个常见捷径：先用质量指标（如困惑度、任务准确率）筛选量化后的检查点，再决定是否有必要进行直接安全测试。作者构建了一个包含51个数据点的矩阵，覆盖6个模型（如Llama、Mistral、Falcon等）、4个模型家族、7级GGUF量化阶梯以及AWQ/GPTQ INT4检查点。分析发现，质量-安全对在所有模型上方向性分裂，共36对无法一致指示安全性。更关键的是，9个“隐藏危险”（hidden-danger）行和1个“近隐藏危险”行显示：尽管质量指标稳定甚至改善，拒绝安全请求的成功率却下降了12-68个百分点。在AWQ/GPTQ检查点中，11个有7个属于隐藏危险。进一步的四探针机理分析（熵、拒绝方向、校准探针和安全相关神经元误差吸收）无法可靠区分危险行：安全相关神经元虽然整体上吸收的量化误差显著更多（1.39倍），但该效应不具模型或量化方法特异性。作者采用Claude Sonnet 4对11470个预定义分层项目进行重新标注，与初级gemma3:12b审核器在89.9%的行上一致（κ=0.873），且未改变任何隐藏危险单元的判决。为此，作者提出了校准的“拒接模板稳定性指数”（RTSI），基于四个拒绝模板漂移特征进行校准，在留一法交叉验证下能以95%置信下限0.72的准确率将全部10个隐藏/近隐藏危险行导向直接安全测试，同时将45个非基线行中的23个标记为低风险。相比之下，最佳单特征基线（唯一前缀率变化、原始拒绝率变化）在相同桶大小下分别只捕获9/10和8/10，且跨模型族转移需要重新校准。结论：对于研究的量化检查点、模型族和安全结果，保留质量指标不能替代直接安全评估。该工作对LLM量化部署的安全实践提出了重要警示。

💡 推荐理由: 揭示业界常用的“质量指标先筛、安全测试后补”流程在量化模型上完全失效，特别是AWQ/GPTQ等低比特量化中隐藏危险高发。安全团队必须对量化模型执行直接安全测试，否则可能放行有重大安全缺陷的模型。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#safety evaluation

Quality Is Not a Safety Proxy Under Quantization