该论文针对机器学习中的数据最小化(Data Minimization, DM)原则进行了系统研究。组织在训练和部署预测模型时,往往收集大量详细的客户数据,一旦发生数据泄露,将导致隐私暴露风险。政策制定者日益要求遵守数据最小化原则,即仅收集任务相关且必要的数据。然而,目前关于如何部署遵守DM的机器学习模型的研究甚少。本文提出了一种基于数据泛化的垂直数据最小化(Vertical DM, vDM)工作流,通过设计确保在模型训练和部署过程中不收集全分辨率客户数据,从而在发生泄露时减少攻击面,保护客户隐私。作者形式化并研究了在泛化过程中同时最大化数据效用和最小化经验隐私风险的问题,通过引入一组多样化的、与政策一致的对抗场景来量化隐私风险。最后,提出了多种基线vDM算法,以及一种特别有效的算法——隐私感知树(Privacy-aware Tree, PAT),该算法在多个设置下优于所有基线。作者计划将代码作为公开库发布,以推动机器学习中DM标准的建立。该工作为实际应用中DM原则的进一步探索和采用奠定了基础。
💡 推荐理由: 数据最小化是隐私保护的核心原则,但机器学习中缺乏系统性实现方案。本文提供了首个全面的垂直DM工作流和有效算法,可直接指导企业减少数据收集风险,具有政策合规价值。
🎯 建议动作: 研究跟进