#concept-drift 主题 - Cyber Security Daily Radar

👥 作者: Dongqi Han, Zhiliang Wang, Wenqi Chen, Kai Wang, Rui Yu 0003, Su Wang, Han Zhang 0009, Zhihua Wang, Minghui Jin, Jiahai Yang 0001, Xingang Shi, Xia Yin 0001

该论文首次系统性地探讨了基于深度学习的异常检测在安全应用中面临的常态漂移（normality shift）问题。传统异常检测模型通常假设训练与部署数据分布一致（闭世界假设），但真实环境中正常行为分布会随时间变化（如网络流量模式、系统调用序列等），导致模型性能下降。现有研究多关注异常行为或监督学习的概念漂移，而忽略了无正样本（zero-positive）异常检测中常态漂移的挑战。论文提出了 OWAD（Open World Anomaly Detection）框架，该框架通过无监督方式检测常态漂移，无需人工标注；解释漂移原因，帮助运维人员理解变化；并自适应调整模型以恢复检测性能。OWAD 在分布级别（而非实例级别）处理漂移，降低了标注开销。作者在三个安全相关异常检测应用（如 SCADA 系统入侵检测）上使用长期真实数据进行实验，结果表明 OWAD 在适应常态漂移方面优于现有方法，且所需标注更少。论文还提供了案例研究和实际部署建议，并已在 SCADA 安全系统中初步部署。该工作为安全运维中应对数据分布变化提供了实用框架。

💡 推荐理由: 常态漂移是异常检测系统在生产环境中失效的主要原因之一，OWAD 提供了首个通用解决方案，有助于提升安全检测系统的长期有效性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yizheng Chen 0001, Zhoujie Ding, David A. Wagner 0001

该论文聚焦于Android恶意软件检测中的概念漂移（concept drift）问题。现有机器学习分类器在训练时能达到很高的准确率（例如F1分数0.99），但部署后随着时间推移，由于恶意软件和良性应用的持续演化，分类器性能急剧下降——在仅6个月后，F1分数就降至0.76。为应对这一挑战，论文提出了一种结合对比学习（contrastive learning）与主动学习（active learning）的持续学习框架。核心思想是利用基于相似性的不确定性度量来对抗概念漂移，因为传统的不确定性采样在面对分布偏移时不够鲁棒。具体而言，作者提出了一种新的层次化对比学习方案（hierarchical contrastive learning），通过对样本进行多级特征对比，学习到更稳定、更具泛化能力的表示。同时，设计了一种基于相似性不确定性的样本选择技术，优先挑选那些模型预测最不确定且与已有样本特征差异最大的新样本，交予分析师标注后用于增量训练。实验基于长达七年的真实数据集进行评估，结果表明该方法在多个指标上显著优于先前主动学习基线：假负率从14%降至9%，假正率从0.86%降至0.48%，并且在整个七年时间跨度内保持了更加一致且稳定的性能。论文主要贡献在于：1）揭示了Android恶意软件检测中概念漂移的严重性；2）提出将对比学习无缝集成到主动学习流程中，以提升对概念漂移的鲁棒性；3）通过大量实验验证了该方法在长期部署场景下的有效性。适合从事移动安全、机器学习运维（MLOps）以及对抗性机器学习研究的读者阅读。

💡 推荐理由: Android恶意软件检测是移动安全的核心任务。该工作揭示了经典分类器因概念漂移快速失效的严重性，并提出结合对比学习的主动学习方案，可显著延长模型有效寿命，减少人工重新标注成本，对实际安全运营具有直接指导价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Warren Fernando, Nikos Komninos

本文研究了概念漂移（Concept Drift）对基于机器学习的钓鱼检测系统性能的影响，并提出了缓解策略。随着数字通信的快速发展，电子邮件成为主要渠道之一，但也带来了垃圾邮件和钓鱼攻击的持续威胁。传统的机器学习检测模型在静态数据集上表现良好，然而钓鱼攻击技术不断演化，导致数据分布随时间发生变化，即概念漂移，从而造成模型性能显著下降。作者评估了多种机器学习模型（如逻辑回归、随机森林、支持向量机等）在真实邮件数据集上随时间推移的准确率、召回率等指标的变化，发现多数模型在6-12个月后准确率下降超过10%。为此，本文提出了一种自适应重训练框架，结合周期性增量更新和基于漂移检测的触发式重训练策略。实验表明，该框架能够将检测性能下降幅度控制在3%以内，同时降低了频繁重训练的计算开销。研究还分析了不同特征（如邮件头、内容、元数据）对漂移的敏感性，指出基于内容的特征更容易受漂移影响。该工作为安全运维团队提供了实用的模型维护指南。

💡 推荐理由: 揭示了机器学习钓鱼检测模型在实际部署中因概念漂移而失效的风险，并给出了可行的自适应维护方案，对保障长期检测有效性至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Suresh Kumar Amalapuram, Bikraj Shresta, Siva Ram murthy Chebiyam, Bheemarjuna Reddy Tamma, Sumohana S Channappayya

该论文针对基于机器学习的恶意软件检测器因概念漂移（即良性软件和恶意软件随时间演变导致检测模型过时）而性能下降的问题，提出了一种名为 SEED 的半监督持续恶意软件检测方法。现有方法（如使用层次对比损失 HCL 结合主动学习）依赖大量标注数据，但在安全领域获取标注数据困难且成本高昂。当仅有部分标注数据时，HCL 在检测未知恶意软件时性能显著下降，尤其是在缺乏强语义结构的 BODMAS 数据集上。SEED 通过结合定制的二元交叉熵目标、半监督持续学习和主动学习，在有限监督下实现有效检测。对于部分标注的已知任务，利用奇异值分解从先前数据构建表示空间，将未标注样本投影到该空间并与合适标注样本配对，以鼓励表示一致性。对于完全无标注的未知任务，在表示空间中利用余弦距离量化不确定性，选择最不确定的样本供分析师标注。在 Windows（BODMAS）和 Android（AndroZoo、APIGraph）数据集上的实验表明，仅使用20%的标注数据，SEED 在未知恶意软件检测的平均AUT（AUC曲线下面积随时间变化）相比半监督HCL*提高了40%（BODMAS）和14%（AndroZoo），在APIGraph上也具有竞争力。此外，SEED 引入延迟缓冲区更新策略以减少重放过程中的标签噪声传播，提高学习稳定性。该研究适合网络安全研究人员、恶意软件检测工程师以及关注持续学习和半监督学习在安全领域应用的从业者阅读。

💡 推荐理由: 解决了恶意软件检测中标注数据稀缺和概念漂移双重挑战，显著提升少量标注下的未知恶意软件检测性能，降低人工标注成本。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ahmed Sabbah, Mohammad Kharma, Mohammad Alkhanafseh, Radi Jarrar, Samer Zein, David Mohaisen

本文针对安卓恶意软件检测模型在部署后因概念漂移（concept drift）导致性能下降的问题，提出了一种基于自监督学习和强化学习的自适应维护框架。现有方法通常需要完全重新训练模型，成本高昂。作者将部署期间的维护建模为序列决策问题：首先通过自监督学习在初始化阶段学习稳定的潜在表示，然后冻结编码器，在固定表示空间中测量潜在漂移，最后使用可训练适配器和分类头进行轻量级下游适应。框架采用近端策略优化（PPO）控制器，根据检测器状态（包括当前效用、固定记忆集上的保留率、潜在漂移指标和更新成本）选择低成本的维护动作。在模拟器和真实安卓恶意软件数据集上，使用静态和动态特征，并采用因果部署风格的评估协议。实验结果表明，强化学习控制器提供了成本感知的强适应策略，始终保持在最优策略之列，同时在非平稳部署条件下实现了时间性能、记忆保留和维护成本之间的良好平衡。该工作为安卓恶意软件检测的持续学习提供了实用方案，适合从事移动安全、机器学习系统维护的研究人员阅读。

💡 推荐理由: 安卓恶意软件检测面临概念漂移挑战，现有全量重训练成本高。本工作提出轻量级自适应框架，利用自监督和强化学习在性能和成本间取得平衡，对蓝队维护检测模型有实际参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ahmed Sabbah, Mohammed Kharma, Radi Jarrar, Samer Zein, David Mohaisen

本文研究了在时间概念漂移背景下，Android恶意软件检测模型的对抗鲁棒性如何随时间演变。研究团队收集了跨越十多年的Android应用数据集，从模拟器和真实设备执行中提取静态和动态特征表示，并将数据按年份切片。他们设计了三种部署协议模拟真实世界的学习场景：(1) 同年训练和测试；(2) 跨年部署但不更新模型；(3) 扩展窗口重训练，利用累积的历史数据。在多种分类器家族上，使用FGSM和SPSA在可行性约束下生成对抗样本。实验测量了干净性能、对抗准确率（AA）、攻击成功率（ASR），并引入了三个时间链接指标——RobustDrop、ΔASR和对抗放大因子（AAF）——来量化分布偏移与鲁棒性退化之间的关系。结果表明，时间分离会降低基于特征迁移的对抗鲁棒性。随着训练-测试时间差距增大，干净准确率和对抗准确率均下降，而攻击成功率在某些配置下（特别是FGSM扰动和静态特征下）增加。扩展窗口重训练可以缓解但不能完全消除在持续分布演化下的鲁棒性损失。这些发现表明，在评估智能检测系统在演化数据分布下的长期鲁棒性时，应考虑时间漂移，并突出了在长期对抗环境中建立漂移感知鲁棒性评估框架的必要性。

💡 推荐理由: 首次系统量化了时间概念漂移对Android恶意软件检测对抗鲁棒性的影响，为长期部署的检测系统提供了关键的鲁棒性评估视角。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Seth Barrett, Lin Li, Gokila Dorai, Swarnamugi Rajaganapathy

本文提出 FIRCE（入侵响应与共形评估框架），旨在解决基于机器学习的入侵检测系统（IDS）在实际部署中因概念漂移（concept drift）导致的模型退化问题。概念漂移指网络流量模式随时间变化，使得训练时的假设失效，传统 IDS 误报率上升、漏报率增加。FIRCE 通过引入共形评估（conformal evaluation）来量化预测不确定性并检测漂移，从而触发模型重训练。核心贡献包括：1）四种共形评估策略——归纳式（Inductive）、交叉式（Cross）、近似转导式（Approximate Transductive）以及作者提出的近似交叉共形评估器（Approximate Cross-Conformal Evaluation），后者在最小化校准开销的同时实现鲁棒性能；2）自适应分块机制（adaptive chunking），根据数据流波动性动态调整评估粒度，在提高漂移响应速度的同时保持计算效率。实验方面，作者搭建了包含 10 台商用设备的自定义 IoT 测试台，在模拟攻击和漂移条件下采集时间序列网络数据，验证了 FIRCE 检测分布偏移并触发重训练的能力。此外，还在 CICIDS2018 和 UNSW-NB15 基准数据集上进行测试，进一步证明其泛化性。结果表明，基于共形评估的漂移检测结合自适应分块，能够高效且鲁棒地应对不断演变的威胁。本文适合关注网络入侵检测、机器学习鲁棒性及概念漂移应对的研究者和安全工程师阅读。

💡 推荐理由: FIRCE 提供了一种实用且理论上优雅的方式，让 IDS 在面对不断变化的网络环境时保持有效性，有助于防御者减少误报并提高对新攻击的检测率。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xueying Zeng, Youquan Xian, Sihao Liu, Xudong Mou, Yanze Li, Lei Cui, Bo Li

随着Android应用的快速演变，传统的基于机器学习的检测模型面临概念漂移问题，且受限于浅层特征，缺乏对代码的深层语义理解和可解释性。虽然大语言模型展现出强大的语义推理能力，但直接处理海量原始代码会产生巨大的令牌开销，并且无法在复杂上下文中充分释放LLM的深层逻辑推理潜力。为了解决这些问题，本文提出了MARD，一个用于鲁棒Android恶意软件检测的多智能体框架。该框架有效弥合了LLM语义理解与传统静态分析之间的鸿沟：它将底层的确定性分析引擎视为按需执行工具，同时利用LLM编排整个决策过程。通过设计基于ReAct范式的自主多智能体交互机制，MARD构建了高度可解释的定罪证据链。此外，该方法将单个复杂APK深度分析的总成本大幅降低至0.10美元以下。实验表明，无需任何领域特定的微调，MARD的F1分数达到93.46%。在跨越长达五年的评估中，它不仅优于持续学习基线，而且表现出对概念漂移的鲁棒性和强大的跨域泛化能力。本文的贡献在于提出了一种结合LLM与静态分析的创新框架，同时解决了成本、可解释性和适应性等关键挑战。

💡 推荐理由: 本文提出了一种结合大语言模型与传统静态分析的多智能体框架，有效解决了Android恶意软件检测中的概念漂移和可解释性不足问题，且推理成本极低，对安全运营中检测模型更新和维护具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

提出一种使用决策树规则集的结构化方法，通过特征重要性、预测一致性等指标量化恶意软件分类中的概念漂移，并在EMBER2024数据集上验证了固定两月窗口和特征级Pearson相关的有效性。

💡 推荐理由: 恶意软件检测模型随时间演化易产生漂移，导致误报漏报；该方法无需标签即可检测漂移，为模型维护和主动更新提供依据，适合安全运维团队用于监测分类器时效性。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#concept-drift

Anomaly Detection in the Open World: Normality Shift Detection, Explanation, and Adaptation.

Continuous Learning for Android Malware Detection.

Evaluating and Combating the Impact of Concept Drift on the Performance of Machine Learning-Based Phishing Detection Systems

SEED: Semi-supervised Continual MalwarE Detection for Tackling ConcEpt Drift on a BuDget

Concept Drift Adaptation Using Self-Supervised and Reinforcement Learning In Android Malware Detection

Adversarial Vulnerability Under Temporal Concept Drift: A Longitudinal Study of Android Malware Detection

FIRCE: A Framework for Intrusion Response and Conformal Evaluation

MARD: A Multi-Agent Framework for Robust Android Malware Detection

Detecting Concept Drift in Evolving Malware Families Using Rule-Based Classifier Representations