#unsupervised learning 主题 - Cyber Security Daily Radar

👥 作者: Elisa Tsai, Ram Sundara Raman, Atul Prakash 0001, Roya Ensafi

该论文针对互联网审查事件检测面临的数据量庞大、审查动态变化以及同一国家不同网络可能采用异构封锁策略等挑战，提出了一种基于决策树的无监督学习系统CenDTect。该系统利用迭代并行DBSCAN聚类算法，以改进的交叉分类准确率作为距离度量，识别具有相似封锁模式的域名，从而克服了人工分析的可扩展性问题以及以往时间序列方法可解释性不足的缺陷。研究分析了Censored Planet项目2019年1月至2022年12月间超过700亿个数据点，在192个国家中发现了15,360个HTTP(S)事件簇，在77个国家中发现了1,166个DNS事件簇。通过与新闻媒体报道整理的38个潜在审查事件进行比对评估，所有经人工核验的事件均能通过CenDTect的输出轻松表征。研究还报告了32个国家中超过100个自治系统存在持续性ISP封锁，并在2022年发现的簇中识别出11个临时性封锁事件，这些事件发生在选举、政治动荡、抗议和战争时期。该方法提供了信息丰富且可解释的输出，使研究人员、记者和非政府组织等数据用户更容易获取审查数据。

💡 推荐理由: 该研究为大规模互联网审查事件检测提供了高效、可解释的无监督方法，有助于安全从业者、政策制定者和人权组织理解全球审查动态，并快速识别新兴审查事件。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#unsupervised learning

Modeling and Detecting Internet Censorship Events.