#ensemble 主题 - Cyber Security Daily Radar

👥 作者: Xinyu Tang 0003, Saeed Mahloujifar, Liwei Song, Virat Shejwalkar, Milad Nasr, Amir Houmansadr, Prateek Mittal

本文针对机器学习模型中的成员推断攻击（Membership Inference Attacks）提出一种名为SELENA的隐私保护训练框架。成员推断攻击旨在通过模型对成员与非成员输入的差异行为推断某样本是否属于训练集，是衡量模型隐私泄露的关键指标。现有防御方法如差分隐私虽能提供可证隐私保障，但会显著降低模型效用。本文的目标是在保持模型效用（utility）的同时提高成员隐私，即实现经验性隐私保障。SELENA框架包含两大核心组件：第一，Split-AI集成架构，它将训练数据随机划分为多个子集，并在每个子集上独立训练模型；在推理阶段，对于每个输入样本，仅聚合那些训练数据中不含该样本的模型输出，从而阻断攻击者利用模型行为差异。作者证明Split-AI能防御一大类成员推断攻击，但仍可能受到自适应攻击。因此，第二组件采用自蒸馏（Self-Distillation）方法，通过Split-AI集成对训练数据集进行自蒸馏，无需外部公共数据集，进一步增强对更强攻击的鲁棒性。在多个基准数据集上的实验表明，SELENA在成员隐私与效用之间实现了优于现有技术的权衡。本文适合机器学习安全研究人员、隐私保护从业者以及关注模型隐私泄露的工程师阅读。

💡 推荐理由: 成员推断攻击是评估机器学习模型隐私风险的核心方法，SELENA在保持模型高性能的同时显著提升隐私，为实际部署提供实用方案。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#ensemble

Mitigating Membership Inference Attacks by Self-Distillation Through a Novel Ensemble Architecture.