#distribution-shift 主题 - Cyber Security Daily Radar

👥 作者: Jun Wen Leong

该论文提出了一种针对已部署安全分类器的在线分布漂移监测系统。系统利用校准的序贯统计量（如加权共形预测或逻辑密度比估计）实时检测分类器的输入分布是否发生变化。一旦检测到漂移，系统会通过共形弃权层自动调整决策阈值，以恢复预设的目标错误率（ε=0.1）。作者通过预注册的析因实验评估了系统性能，覆盖4种分类器、5种漂移条件、20个随机种子和2种窗口大小（共计800个实验单元）。结果显示，系统实现了86.6%（693/800，95%置信区间[84.1%,88.8%]）的有效检测率，平均检测延迟为39.5步。检测能力在三种真实漂移场景中得到验证：合成数据引入的偏移（86.6%）、真实世界的时间越狱攻击（85%，17/20）以及GCG对抗攻击。在修正阶段，加权共形预测在DeBERTa分类器上恢复了最多39个百分点的覆盖率损失（有效样本量ESS=46/300），但在其他分类器上完全失效（ESS接近300）。逻辑密度比估计在高维嵌入空间中实现了完美的源/目标分离，导致所有重要性权重被截断至下限。DeBERTa展现出了从有效修正（释义变形，ESS=46）到几乎完全失效（对抗后缀，ESS=206）的梯度变化。将特征空间PCA降维至32维后，崩溃问题得到缓解，为Llama Guard恢复了33个百分点，为ShieldGemma恢复了21个百分点覆盖率。方差分解显示，分类器（η²=0.243）、漂移类型（η²=0.237）及其交互项（η²=0.185）对检测延迟的变异均有显著贡献（所有p<0.001），表明需要对每个分类器建立单独的监测配置。

💡 推荐理由: 安全分类器在生产环境中面临分布漂移导致性能退化的问题，该工作提供了首个标准化在线监测与自适应修复框架，对LLM安全防护的持续有效性保障具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#distribution-shift

Online Shift Detection and Conformal Adaptation for Deployed Safety Classifiers