#convergence 主题 - Cyber Security Daily Radar

👥 作者: Huong Nguyen, Mickaël Bettinelli, Amirhossein Ghaffari, Alexandre Benoit, Hong-Tri Nguyen, Susanna Pirttikangas, Lauri Lovén

联邦学习（FL）是一种分布式机器学习范式，允许多个客户端在不共享原始数据的情况下协同训练共享模型，从而解决数据孤岛和隐私问题。然而，数据本身也是FL系统面临的主要挑战和脆弱性来源，直接影响训练的稳定性和收敛速度。现有综述通常从整体架构、安全攻击或应用场景入手，缺乏从数据视角的系统性分析。本文填补了这一空白，从数据异构性、数据划分协议和数据相关的安全防御三个方面，首次全面梳理了数据因素对FL收敛的影响。具体地，作者首先将非独立同分布（non-IID）数据分解为可测量的特征（如标签分布偏移、特征偏移、数量偏移等），并根据其对收敛的影响强度分为强、中、弱三个等级，解释了每种偏移影响收敛的机制，并统一了图像、文本和图数据上的实验证据。其次，作者将实验中常用的数据划分方式（如按标签划分、按狄利克雷分布划分）与真实场景中的现象对应，指出了这些划分方式引入的人为偏差（artifact）及其对目标精度的扭曲效应，帮助研究者更合理地设计实验。最后，作者分析了数据相关的安全漏洞（如投毒攻击、成员推断攻击）及其防御机制（如差分隐私、鲁棒聚合）对收敛速度和稳定性的影响，在干净和对抗条件下报告了性能表现，揭示了收敛与鲁棒性之间的权衡。作为首篇全面理解FL中数据挑战的综述，本文为从业者提供了可操作的设计指南，帮助他们构建具有可预测收敛性和稳定性的FL系统。

💡 推荐理由: 联邦学习在实际部署中频繁遇到数据异构和安全威胁，影响模型收敛和性能。本文首次从数据视角系统梳理了挑战，为安全从业者提供了设计鲁棒且高效FL系统的关键参考。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#convergence

From Data Heterogeneity to Convergence: A Data-Centric Review of Federated Learning