推荐 3.5
Conf: 50%
深度神经网络(DNN)仍然容易受到后门攻击,现有后门检测方法通常需要干净数据、代理数据、梯度或迭代触发器重建,导致计算成本高且在实际模型审计场景中鲁棒性有限。本文提出HTell,一种快速、轻量级且无需数据的后门检测方法,基于头部随机探针技术。HTell的核心洞察是:后门模型在随机潜在探针下,预测头部的目标类别上往往表现出异常高的响应集中度。该方法首先生成架构感知的随机潜在探针,直接馈入模型头部,然后通过分析类别级响应统计量来检测后门,无需访问真实/代理数据、模型梯度或参数优化。在包含超过6000个后门模型和700多个干净模型的大规模基准上进行评估,覆盖4个数据集、14种架构和21种后门攻击类型。HTell实现了99.03%的真阳性率和2.11%的假阳性率,每模型检测延迟仅为12.69毫秒,相比基于梯度的代表性检测器时间成本降低超过30,000倍。结果表明,头部随机探针为大规模无数据后门模型审计提供了准确、鲁棒且高效的解决方案。
💡 推荐理由: HTell实现了无需数据、快速且高精度的后门检测,大幅降低了模型审计的计算门槛,适合安全团队在本地或云端大规模部署前对第三方模型进行黑盒筛查。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)