#semi-supervised 主题 - Cyber Security Daily Radar

👥 作者: Xian Wu 0007, Wenbo Guo 0002, Jia Yan, Baris Coskun, Xinyu Xing 0001

恶意软件分类是网络安全中的重要任务，但实际数据集中常因标注人员缺乏专业知识而包含大量错误标签。以往研究表明，错误标签会严重影响机器学习模型的准确性。尽管在图像识别和文本挖掘领域，已有多种噪声学习方法被提出并取得显著效果，但它们在恶意软件分类场景下的有效性尚未被系统验证。本文首先将代表性及最新的噪声学习方法应用于真实世界的恶意软件分类任务，发现这些方法均无法有效减轻错误标签的影响。通过精心设计的实验，作者揭示出主要原因在于恶意软件数据集存在极端的数据不平衡以及极高的错误标签比例。为此，作者提出了一种名为MORSE的新型噪声学习方法。MORSE对最先进的半监督学习技术进行了定制和扩展，将可能的错误标签样本视为未标注数据，从而避免其负面作用。同时，MORSE集成了样本重加权方法，平衡训练数据中各类样本的使用，以应对数据不平衡挑战。文中在合成数据集和真实数据集上进行了评估，结果显示MORSE显著优于现有噪声学习方法，能最大限度地减少错误标签的影响。本文适合从事恶意软件检测、对抗性机器学习及数据质量研究的安全工程师和研究人员阅读。

💡 推荐理由: 恶意软件分类模型依赖高质量标签，但真实环境标签噪声普遍存在。MORSE方法首次验证了现有噪声学习方法在恶意软件场景中的失效，并提出针对性解决方案，有助于提升安全运营中自动化分类的可靠性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Suresh Kumar Amalapuram, Bikraj Shresta, Siva Ram murthy Chebiyam, Bheemarjuna Reddy Tamma, Sumohana S Channappayya

该论文针对基于机器学习的恶意软件检测器因概念漂移（即良性软件和恶意软件随时间演变导致检测模型过时）而性能下降的问题，提出了一种名为 SEED 的半监督持续恶意软件检测方法。现有方法（如使用层次对比损失 HCL 结合主动学习）依赖大量标注数据，但在安全领域获取标注数据困难且成本高昂。当仅有部分标注数据时，HCL 在检测未知恶意软件时性能显著下降，尤其是在缺乏强语义结构的 BODMAS 数据集上。SEED 通过结合定制的二元交叉熵目标、半监督持续学习和主动学习，在有限监督下实现有效检测。对于部分标注的已知任务，利用奇异值分解从先前数据构建表示空间，将未标注样本投影到该空间并与合适标注样本配对，以鼓励表示一致性。对于完全无标注的未知任务，在表示空间中利用余弦距离量化不确定性，选择最不确定的样本供分析师标注。在 Windows（BODMAS）和 Android（AndroZoo、APIGraph）数据集上的实验表明，仅使用20%的标注数据，SEED 在未知恶意软件检测的平均AUT（AUC曲线下面积随时间变化）相比半监督HCL*提高了40%（BODMAS）和14%（AndroZoo），在APIGraph上也具有竞争力。此外，SEED 引入延迟缓冲区更新策略以减少重放过程中的标签噪声传播，提高学习稳定性。该研究适合网络安全研究人员、恶意软件检测工程师以及关注持续学习和半监督学习在安全领域应用的从业者阅读。

💡 推荐理由: 解决了恶意软件检测中标注数据稀缺和概念漂移双重挑战，显著提升少量标注下的未知恶意软件检测性能，降低人工标注成本。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#semi-supervised

From Grim Reality to Practical Solution: Malware Classification in Real-World Noise.

SEED: Semi-supervised Continual MalwarE Detection for Tackling ConcEpt Drift on a BuDget