本文研究了机器学习模型在敏感数据训练时可能泄露训练分布群体信息的问题,即分布推断攻击(DIA)。攻击者仅通过黑盒访问模型,即可推断出敏感的人口统计属性(如子群体比例)。现有防御手段如差分隐私和属性遗忘已有相关研究,但公平性约束与分布泄漏之间的关联尚未被探索。本文提出公平微调(Fair Fine-tuning, FFt)方法:在等概率差异(Equalized Odds)约束下,将训练好的模型在互补分布样本上微调。作者给出了完整的理论刻画,证明了紧界:Adv(A, M_f) ≤ Δ_EO · W,其中W量化了根据敏感属性组成区分两个训练分布的程度。还建立了FFt降低对手优势的必要条件,并证明了界的紧性。在六个数据集上进行了评估,涵盖表格数据(ACS Income, COMPAS, German Credit)、图像数据(UTKFaces)和自然语言处理数据(Bias in Bios)。基于重温的FFt一致地将对抗准确率差距降低到检测阈值τ=0.1以下;在ACS Income数据集上,差距从约15%降至4%以下。本文首次提供了连接模型测量的EO差异与DIA游戏中对抗优势的形式化边界,为统一公平性和隐私防御开辟了新途径。适合机器学习安全、隐私保护、公平性研究领域的读者。
💡 推荐理由: 首次建立了公平性约束与分布推断攻击风险之间的理论关联,提出了一种可操作的微调防御方法,为隐私与公平的联合防护提供了新思路。
🎯 建议动作: 研究跟进