推荐 3.5
Conf: 50%
该论文针对基于机器学习的恶意软件检测器因概念漂移(即良性软件和恶意软件随时间演变导致检测模型过时)而性能下降的问题,提出了一种名为 SEED 的半监督持续恶意软件检测方法。现有方法(如使用层次对比损失 HCL 结合主动学习)依赖大量标注数据,但在安全领域获取标注数据困难且成本高昂。当仅有部分标注数据时,HCL 在检测未知恶意软件时性能显著下降,尤其是在缺乏强语义结构的 BODMAS 数据集上。SEED 通过结合定制的二元交叉熵目标、半监督持续学习和主动学习,在有限监督下实现有效检测。对于部分标注的已知任务,利用奇异值分解从先前数据构建表示空间,将未标注样本投影到该空间并与合适标注样本配对,以鼓励表示一致性。对于完全无标注的未知任务,在表示空间中利用余弦距离量化不确定性,选择最不确定的样本供分析师标注。在 Windows(BODMAS)和 Android(AndroZoo、APIGraph)数据集上的实验表明,仅使用20%的标注数据,SEED 在未知恶意软件检测的平均AUT(AUC曲线下面积随时间变化)相比半监督HCL*提高了40%(BODMAS)和14%(AndroZoo),在APIGraph上也具有竞争力。此外,SEED 引入延迟缓冲区更新策略以减少重放过程中的标签噪声传播,提高学习稳定性。该研究适合网络安全研究人员、恶意软件检测工程师以及关注持续学习和半监督学习在安全领域应用的从业者阅读。
💡 推荐理由: 解决了恶意软件检测中标注数据稀缺和概念漂移双重挑战,显著提升少量标注下的未知恶意软件检测性能,降低人工标注成本。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)