#safety evaluation

共收录 1 条相关安全情报。

← 返回所有主题
推荐 3.6
Conf: 50%
👥 作者: Sahil Kadadekar

本文系统性地审计了量化大语言模型(LLM)安全评估中的一个常见捷径:先用质量指标(如困惑度、任务准确率)筛选量化后的检查点,再决定是否有必要进行直接安全测试。作者构建了一个包含51个数据点的矩阵,覆盖6个模型(如Llama、Mistral、Falcon等)、4个模型家族、7级GGUF量化阶梯以及AWQ/GPTQ INT4检查点。分析发现,质量-安全对在所有模型上方向性分裂,共36对无法一致指示安全性。更关键的是,9个“隐藏危险”(hidden-danger)行和1个“近隐藏危险”行显示:尽管质量指标稳定甚至改善,拒绝安全请求的成功率却下降了12-68个百分点。在AWQ/GPTQ检查点中,11个有7个属于隐藏危险。进一步的四探针机理分析(熵、拒绝方向、校准探针和安全相关神经元误差吸收)无法可靠区分危险行:安全相关神经元虽然整体上吸收的量化误差显著更多(1.39倍),但该效应不具模型或量化方法特异性。作者采用Claude Sonnet 4对11470个预定义分层项目进行重新标注,与初级gemma3:12b审核器在89.9%的行上一致(κ=0.873),且未改变任何隐藏危险单元的判决。为此,作者提出了校准的“拒接模板稳定性指数”(RTSI),基于四个拒绝模板漂移特征进行校准,在留一法交叉验证下能以95%置信下限0.72的准确率将全部10个隐藏/近隐藏危险行导向直接安全测试,同时将45个非基线行中的23个标记为低风险。相比之下,最佳单特征基线(唯一前缀率变化、原始拒绝率变化)在相同桶大小下分别只捕获9/10和8/10,且跨模型族转移需要重新校准。结论:对于研究的量化检查点、模型族和安全结果,保留质量指标不能替代直接安全评估。该工作对LLM量化部署的安全实践提出了重要警示。

💡 推荐理由: 揭示业界常用的“质量指标先筛、安全测试后补”流程在量化模型上完全失效,特别是AWQ/GPTQ等低比特量化中隐藏危险高发。安全团队必须对量化模型执行直接安全测试,否则可能放行有重大安全缺陷的模型。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)