#imbalanced-data 主题 - Cyber Security Daily Radar

👥 作者: Muhammad Khuram Shahzad, Haseeb Khan, Muhammad Masood Khan, Mubashra Bibi

该论文聚焦于物联网(IoT)网络入侵检测中的类别不平衡问题。侧信道功率数据集中正常样本与攻击样本的比例可达75,964比1，严重影响了机器学习模型的检测性能。此前Dominguez等人提出了基于功率的入侵检测概念验证，但未处理类别不平衡，也未在平衡训练集上评估分类器性能。本研究针对这些问题进行了改进：首先，对从原始数据集提取的九个可能数据集应用合成少数类过采样技术(SMOTE)，使得每个数据集的精确不平衡比达到1.1；然后，在SMOTE平衡后的6小时数据集上，在相同条件下训练了八种算法：随机森林(RF)、直方图梯度提升(HistGradientBoosting)、LightGBM、极限随机树(Extra Trees)、XGBoost、K近邻(KNN)、多层感知器(MLP)和决策树(DT)。实验结果表明，随机森林的微平均F1分数达到0.9989，宏平均F1为0.9794，超越了此前基准论文中时间序列森林算法的最佳微F1结果(0.9983)。极限随机树在保持相同性能的同时，训练速度快了10倍。通过明确引入宏平均F1指标（区别于基准论文的评估），揭示了聚合性能指标遗漏的重要类别级信息。基于混淆矩阵计算的每类召回率、F1热图和ROC曲线显示，仅当使用SMOTE平衡时，少数攻击类别（尤其是混合M+L感染）才能被可靠检测。特征重要性分析表明，功率窗口中的最后时间步（共60步）是最重要的预测信号。本文的研究为基于侧信道的IoT入侵检测提供了更全面的评估框架，强调了数据平衡和细粒度性能指标的重要性。

💡 推荐理由: 该研究解决了IoT入侵检测中极端类别不平衡的实际问题，通过SMOTE过采样和全面模型评估，显著提升了少数攻击类的检测可靠性，为安全团队部署基于侧信道的异常检测提供了可操作的方法论。

🎯 建议动作: 研究跟进：将SMOTE与随机森林/极限随机树组合纳入内部评估，验证其在自身环境中的效果。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#imbalanced-data

Improving IoT Intrusion Detection Through SMOTE-Based Oversampling and Extended Multi-Model Evaluation on Side-Channel Power Data