该论文提出了一种基于远程数据科学(RDS)的隐私保护机器学习(PPML)框架,用于跨机构学生保留率预测。研究利用PySyft平台,设计了一个半气隙架构,包括高侧和低侧服务器,使得来自三所大学的研究人员能够在敏感学生数据上构建预测模型,而无需直接访问原始数据。实验使用一所小型私立大学的历史数据(N=720),评估了三种合成数据生成方法,并提出了一种名为“数据类型感知模板”(Data-Type-Aware Templates)的新型合成数据方法,该方法优先考虑隐私而非分布保真度。通过跨机构协作验证,该框架在不同机构间保持一致的分类性能(Macro F1: 0.690-0.695),同时严格遵守美国《家庭教育权利和隐私法案》(FERPA)。研究表明,基于RDS的PPML在教育场景中技术上可行,并且是小规模跨机构合作中联邦学习的一种实用替代方案。论文代码已开源。
💡 推荐理由: 该研究为教育机构提供了一种合规共享敏感数据、协同建模的可行路径,有望推动隐私保护机器学习在教育领域的实际应用。
🎯 建议动作: 研究跟进