推荐 5.5
Conf: 50%
该论文提出了一种名为 DP-SelFT 的差分隐私选择性微调框架,旨在解决大型语言模型(LLM)在微调过程中因使用敏感数据而导致的隐私泄露问题。差分隐私(DP)通过梯度裁剪和噪声注入提供形式化的隐私保护,但常导致模型效用显著下降。现有工作通过结合参数高效微调方法(如 LoRA)来改善隐私-效用权衡,但这些方法主要约束更新的形式。本文探索了互补的方向:选择性微调,即约束更新的位置。DP-SelFT 针对参数选择过程中的三个 DP 特有挑战:避免重复的隐私成本、提高噪声估计下的稳定性、以及选择在裁剪和噪声更新下仍然有用的参数。其核心思想是:首先构建一个轻量级的 DP 合成数据集,并仅在此合成数据上执行参数选择,从而选择阶段不产生额外隐私成本;然后通过临时训练候选层子集(在合成训练集上)并在合成验证集上评估来进行层级别选择。关键在于,这个临时训练是在与下游 DP 微调匹配的扰动机制下进行的,扰动规模与 DP 噪声相同,从而偏向于选择那些不仅可学习而且对噪声私有更新具有鲁棒性的层子集。实验在基准任务上表明,在相同的隐私保证下,DP-SelFT 持续优于现有的 DP 微调基线,改善了隐私-效用权衡。该研究为 LLM 的隐私保护微调提供了新思路,适合对差分隐私、模型微调隐私保护感兴趣的研究者阅读。
💡 推荐理由: 该方法在差分隐私微调中引入选择性更新策略,显著提升了模型效用与隐私保护的平衡,对于处理敏感数据的 LLM 应用具有重要参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)