#active-learning 主题 - Cyber Security Daily Radar

👥 作者: Yizheng Chen 0001, Zhoujie Ding, David A. Wagner 0001

该论文聚焦于Android恶意软件检测中的概念漂移（concept drift）问题。现有机器学习分类器在训练时能达到很高的准确率（例如F1分数0.99），但部署后随着时间推移，由于恶意软件和良性应用的持续演化，分类器性能急剧下降——在仅6个月后，F1分数就降至0.76。为应对这一挑战，论文提出了一种结合对比学习（contrastive learning）与主动学习（active learning）的持续学习框架。核心思想是利用基于相似性的不确定性度量来对抗概念漂移，因为传统的不确定性采样在面对分布偏移时不够鲁棒。具体而言，作者提出了一种新的层次化对比学习方案（hierarchical contrastive learning），通过对样本进行多级特征对比，学习到更稳定、更具泛化能力的表示。同时，设计了一种基于相似性不确定性的样本选择技术，优先挑选那些模型预测最不确定且与已有样本特征差异最大的新样本，交予分析师标注后用于增量训练。实验基于长达七年的真实数据集进行评估，结果表明该方法在多个指标上显著优于先前主动学习基线：假负率从14%降至9%，假正率从0.86%降至0.48%，并且在整个七年时间跨度内保持了更加一致且稳定的性能。论文主要贡献在于：1）揭示了Android恶意软件检测中概念漂移的严重性；2）提出将对比学习无缝集成到主动学习流程中，以提升对概念漂移的鲁棒性；3）通过大量实验验证了该方法在长期部署场景下的有效性。适合从事移动安全、机器学习运维（MLOps）以及对抗性机器学习研究的读者阅读。

💡 推荐理由: Android恶意软件检测是移动安全的核心任务。该工作揭示了经典分类器因概念漂移快速失效的严重性，并提出结合对比学习的主动学习方案，可显著延长模型有效寿命，减少人工重新标注成本，对实际安全运营具有直接指导价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Samuel Ndichu, Tao Ban, Seiichi Ozawa, Takeshi Takahashi, Daisuke Inoue

安全运营中心（SOC）面临持续的警报疲劳问题：在低患病率的事件流中，即使很低的误报率也会产生大量的调查负担，而聚合的F1分数往往掩盖了分析人员的实际工作负荷。本文提出PACT（Pareto-aware Controller for Triggered Active Learning），一种用于触发式主动学习的帕累托感知控制器。PACT包裹一个已经部署的冻结XGBoost-Focal筛查器，增加了一个自适应窗口分数偏移触发机制和一个混合采集规则，结合了阈值相对不确定性和高分数采样。在两个公开的低患病率基准数据集AIT-ADS和BOTSv1上，PACT在自适应方法中实现了最低的良性归一化误报负担。与冻结基线相比，PACT分别降低了43%和21%的负担，同时相比周期性均匀随机更新，减少了3.8倍和5.2倍的分析师查询次数。配对触发消融实验控制了触发时机，表明采集机制带来的收益超过了单纯的时机控制，但在自由运行触发下以约10个百分点的正窗口召回率为代价。仅使用冻结阈值的基线虽然进一步降低了误报，但导致BOTSv1的召回率下降了55个百分点。在所评估的工作负载假设下，纯粹的误报最小化以不可接受的召回率换取了较低的负担。

💡 推荐理由: 针对SOC长期存在的警报疲劳问题，提出了一种结合主动学习与自适应触发的高效方法，显著降低误报负担同时减少分析师查询次数，具有实际部署价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qingchao Jiang, Zhenxuan Hou, Zhiying Zhu, Zhenxing Qian, Xinpeng Zhang, Zaiwang Gu

该论文针对合成人脸检测（即检测由深度生成模型生成的伪造人脸图像）中两个关键问题：模型对未知分布图像（OOD）的过度自信，以及需要大量高质量标注数据导致实用性受限。作者提出了一种名为EMSFD（基于证据决策建模与不确定性驱动主动学习的合成人脸检测方法）的框架。核心创新点包括：1）利用狄利克雷分布对类证据进行建模，将模型不确定性显式纳入预测过程，从而有效缓解Softmax激活函数带来的过度自信问题，提升对未知样本的检测可靠性；2）在训练阶段，利用估计的不确定性从未标注池中优先筛选信息量大的样本进行主动学习标注，降低标注成本并提升模型泛化能力。实验在多个合成人脸数据集上进行，结果表明EMSFD在检测准确率上相比现有最先进方法提升了15%，同时具有更好的可解释性和泛化性。代码已开源。该研究适合关注深度伪造检测、不确定性估计、主动学习以及模型可靠性的研究人员和工程师阅读。

💡 推荐理由: 该方法解决了合成人脸检测中模型对未知伪造类型过度自信的痛点，并显著降低标注成本，对提升实际场景下深度伪造检测的鲁棒性和可用性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Nikos Vasilakis, Achilles Benetopoulos, Shivam Handa, Alizee Schoen, Jiasi Shen 0001, Martin C. Rinard

该论文聚焦于软件供应链漏洞消除问题，提出了一种主动库学习与再生（Active Library Learning and Regeneration, ALR）技术。供应链攻击常利用广泛使用的组件，通过文件系统或网络访问等不影响客户端可观察行为的操作实施攻击。ALR技术通过多轮递增的探索，为组件生成输入、观察输出，从而推断出组件行为模型，并以领域特定语言程序形式再生该行为。作者实现了Harp系统，专门针对字符串处理组件。实验对JavaScript和C/C++编写的字符串处理库进行测试，结果表明Harp能在多数情况下于1分钟内完成再生，且与原始库完全兼容，性能无明显差异。更重要的是，Harp成功消除了多个高知名度安全事件涉及的库中的漏洞，包括event-stream、left-pad和string-compare。该研究为供应链漏洞自动化修复提供了新思路。

💡 推荐理由: 提出一种主动学习与再生方法，能从根源消除供应链漏洞，无需依赖补丁，具有自动化、兼容性好、性能无损等优势，对防御者具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#active-learning

Continuous Learning for Android Malware Detection.

PACT: Reducing Alert Fatigue in Low-Prevalence SOC Streams with Triggered Active Learning

Evidence-based Decision Modeling for Synthetic Face Detection with Uncertainty-driven Active Learning

Supply-Chain Vulnerability Elimination via Active Learning and Regeneration.