#domain shift 主题 - Cyber Security Daily Radar

👥 作者: Mohammadreza Rashidi

该论文针对智能视频监控中“可疑行为自动标记”这一核心功能，审视了当前被广泛引用的视频异常检测基准（如UCSD Ped1/Ped2、CUHK Avenue、ShanghaiTech）上报告的高帧级ROC-AUC数值。作者指出，这些高指标通常是在同一摄像机和场景下训练和测试得到的，而实际部署时场景不可控、分布外样本普遍存在。为量化这种场景迁移导致的分值崩塌，作者构建了一个无监督正常性模型：仅使用一个数据集的全部正常训练帧，采用冻结的现成嵌入（CLIP、DINOv2、ResNet-50、EfficientNet-B0）结合近邻距离，然后对同一数据集和其他数据集的测试帧进行评分。实验涵盖4个真实数据集和4种骨干网络，发现：同一数据集平均AUC为0.704，而跨数据集平均AUC仅为0.499（相当于随机猜测）；多个跨数据集对甚至低于随机水平。更强的骨干网络反而加剧下降：DINOv2在相同数据集上AUC可达0.901，但跨数据集下降幅度最大。该分值的崩塌并非评分规则伪影：将近邻检测器替换为PaDiM风格的马氏距离检测器几乎重现相同结果（跨数据集差距0.202 vs 0.208）。即使在有利的工作点，假警报率也高达每小时31,931次。作者得出结论：当前的基准测试数值描述的是校准过的实验室环境，严重高估了实际部署可靠性。论文发布了可复现所有数字的代码。适合安全工程师、AI监控系统构建者、计算机视觉研究者阅读。

💡 推荐理由: 该研究揭穿了视频异常检测基准测试的谎言：高AUC仅在同场景下成立，跨场景即失效。安全团队在采购或部署AI监控产品时，应质疑厂商引用的基准分数，并警惕分布偏移导致的误报/漏报激增。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#domain shift

Benchmark AUC Is Not Deployable Reliability: A Cross-Dataset Audit of Off-the-Shelf Features for Surveillance Video Anomaly Detection