#distribution-shift

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Jun Wen Leong

该论文提出了一种针对已部署安全分类器的在线分布漂移监测系统。系统利用校准的序贯统计量(如加权共形预测或逻辑密度比估计)实时检测分类器的输入分布是否发生变化。一旦检测到漂移,系统会通过共形弃权层自动调整决策阈值,以恢复预设的目标错误率(ε=0.1)。作者通过预注册的析因实验评估了系统性能,覆盖4种分类器、5种漂移条件、20个随机种子和2种窗口大小(共计800个实验单元)。结果显示,系统实现了86.6%(693/800,95%置信区间[84.1%,88.8%])的有效检测率,平均检测延迟为39.5步。检测能力在三种真实漂移场景中得到验证:合成数据引入的偏移(86.6%)、真实世界的时间越狱攻击(85%,17/20)以及GCG对抗攻击。在修正阶段,加权共形预测在DeBERTa分类器上恢复了最多39个百分点的覆盖率损失(有效样本量ESS=46/300),但在其他分类器上完全失效(ESS接近300)。逻辑密度比估计在高维嵌入空间中实现了完美的源/目标分离,导致所有重要性权重被截断至下限。DeBERTa展现出了从有效修正(释义变形,ESS=46)到几乎完全失效(对抗后缀,ESS=206)的梯度变化。将特征空间PCA降维至32维后,崩溃问题得到缓解,为Llama Guard恢复了33个百分点,为ShieldGemma恢复了21个百分点覆盖率。方差分解显示,分类器(η²=0.243)、漂移类型(η²=0.237)及其交互项(η²=0.185)对检测延迟的变异均有显著贡献(所有p<0.001),表明需要对每个分类器建立单独的监测配置。

💡 推荐理由: 安全分类器在生产环境中面临分布漂移导致性能退化的问题,该工作提供了首个标准化在线监测与自适应修复框架,对LLM安全防护的持续有效性保障具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)