该论文针对近年来网络入侵检测研究中越来越多地采用循环网络和Transformer等时序架构的趋势,提出质疑:这些模型是否真的利用了时序信息?作者以CIC-IDS2017数据集为基准,将其重构为时序入侵检测任务,通过构建有序流序列,在随机划分、两种无泄漏划分以及填充方案消融实验下,对九种经典和深度学习架构进行了系统评测。核心发现是:对于Transformer,填充约定(padding convention)比架构本身对性能的影响更大。在真正的序列(非填充)窗口上,Transformer取得了实验中最高的宏F1分数(0.89);但在零填充+掩码评估下,其宏F1显著下降0.24,而LSTM、GRU和1D-CNN保持稳定。在无泄漏分组评估下,随机森林是最稳健的模型(宏F1提升0.009),而Transformer的误报率从0.04%增长到2.7%,增加了67倍,这一现象在常规评估协议下完全不可见。研究表明,评估方法——特别是填充约定和划分协议——对报告性能的影响大于架构选择。广泛使用的随机划分加重复末次填充可能高估模型稳健性多达0.24宏F1。作者提倡未来入侵检测研究采用无泄漏划分、明确披露填充方案以及序列感知基准测试。
💡 推荐理由: 本文揭示了入侵检测模型评估中容易被忽视的漏洞:不合理的时序预处理和评估协议会严重高估模型性能,误导研究结论。安全从业者应警惕论文中报告的高分可能源于评估方法缺陷,并采用更严格的验证流程。
🎯 建议动作: 研究跟进