这篇论文揭示了联邦学习(FL)在语言模型微调过程中的隐私后门攻击风险。在联邦学习中,多个参与者协作微调模型而不共享原始数据,但全模型微调计算成本高昂,因此参数高效微调(PEFT)成为实际应用中的主流方法,它冻结基础模型仅训练少量适配器。本文提出一种名为NeuroImprint的攻击方法,由恶意参数服务器实施,能够将PEFT适配器隐秘地转化为隐私后门,该后门隐式地记忆客户端的训练样本,以每个样本对应的隔离参数更新形式存储在单独的神经元中,且不降低模型效用。具体来说,NeuroImprint为每个训练样本分配一个专用的记忆神经元,并约束每个神经元在本地微调轨迹中最多更新一次,从而解决了大本地批次和有状态优化器(如Adam/AdamW)导致的交叉样本碰撞和交叉步骤混合问题。微调完成后,这些隔离的样本更新可以通过闭式解析方法逆向恢复为文本嵌入,并确定性地映射回 token 序列。作者在多种语言模型(BERT、GPT-2、Qwen2、Llama3.2)和四个不同领域的微调数据集上验证了该方法,结果显示攻击能够重构59%至79%的微调样本,且具有较高的语义保真度。该研究首次系统性地展示了在联邦语言模型微调中利用PEFT适配器实现隐私泄露的可行性,对联邦学习的安全隐私保护提出了新的挑战。
💡 推荐理由: 该研究揭示了联邦语言模型微调中一种隐蔽且高效的隐私攻击方式,直接威胁到使用PEFT的联邦学习系统的用户数据安全。安全从业者应关注此类针对适配器的后门攻击,并评估现有防御措施的不足。
🎯 建议动作: 研究跟进