该论文聚焦于Android恶意软件检测中的概念漂移(concept drift)问题。现有机器学习分类器在训练时能达到很高的准确率(例如F1分数0.99),但部署后随着时间推移,由于恶意软件和良性应用的持续演化,分类器性能急剧下降——在仅6个月后,F1分数就降至0.76。为应对这一挑战,论文提出了一种结合对比学习(contrastive learning)与主动学习(active learning)的持续学习框架。核心思想是利用基于相似性的不确定性度量来对抗概念漂移,因为传统的不确定性采样在面对分布偏移时不够鲁棒。具体而言,作者提出了一种新的层次化对比学习方案(hierarchical contrastive learning),通过对样本进行多级特征对比,学习到更稳定、更具泛化能力的表示。同时,设计了一种基于相似性不确定性的样本选择技术,优先挑选那些模型预测最不确定且与已有样本特征差异最大的新样本,交予分析师标注后用于增量训练。实验基于长达七年的真实数据集进行评估,结果表明该方法在多个指标上显著优于先前主动学习基线:假负率从14%降至9%,假正率从0.86%降至0.48%,并且在整个七年时间跨度内保持了更加一致且稳定的性能。论文主要贡献在于:1)揭示了Android恶意软件检测中概念漂移的严重性;2)提出将对比学习无缝集成到主动学习流程中,以提升对概念漂移的鲁棒性;3)通过大量实验验证了该方法在长期部署场景下的有效性。适合从事移动安全、机器学习运维(MLOps)以及对抗性机器学习研究的读者阅读。
💡 推荐理由: Android恶意软件检测是移动安全的核心任务。该工作揭示了经典分类器因概念漂移快速失效的严重性,并提出结合对比学习的主动学习方案,可显著延长模型有效寿命,减少人工重新标注成本,对实际安全运营具有直接指导价值。
🎯 建议动作: 研究跟进