#machine-unlearning

共收录 9 条相关安全情报。

← 返回所有主题
👥 作者: Osama Wehbi, Sarhad Arisdakessian, Omar Abdel Wahab, Azzam Mourad, Hadi Otrok

联邦学习(FL)允许多方协作训练模型而不共享原始数据,但分布式特性使其易受后门攻击——恶意客户端在本地训练数据中嵌入隐藏触发器,操纵模型预测。现有防御主要在聚合前或聚合中生效,无法完全消除收敛后全局模型中残留的后门行为。此外,服务器在训练后缺乏触发器模式或恶意客户端的信息,导致后门残留或正常准确率下降。为此,本文提出SCRUB-FL(通过遗忘后门来净化和清洗表示),一种两阶段后门清除方案。训练阶段:客户端使用频谱分析和激活聚类识别可疑样本,然后训练轻量级WGAN-GP(带梯度惩罚的Wasserstein生成对抗网络)捕获触发器相关分布;服务器端聚合生成器参数,构建可疑模式的全局表示而不暴露原始数据。收敛后阶段:服务器合成近似触发器的样本,应用机器遗忘(machine unlearning)通过将预测分布重定向为均匀分布来擦除触发器-目标关联。在CIFAR-10和GTSRB数据集上,针对三种攻击类型和高达40%的恶意参与率,实验表明SCRUB-FL将后门攻击成功率降至3.88%,同时保持超过91%的正常任务准确率,优于现有最先进防御,且无需服务器预先知道触发器模式或拥有大型干净代理数据集。

💡 推荐理由: 联邦学习中的后门攻击难以彻底清除,现有方法依赖聚合阶段防御或需要大量干净数据。SCRUB-FL首次将机器遗忘引入FL后门移除,无需先验触发器知识,显著降低攻击成功率而几乎不影响主任务,为隐私敏感场景(如医疗、金融)提供了实用防护方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Rutger Hendrix, Leonardo G. Russo, Concetto Spampinato, Matteo Pennisi, Giovanni Bellitto

随着隐私合规AI需求的增长,机器遗忘变得愈发重要。然而,现有的基于重新训练或知识蒸馏的方法不仅计算成本高,而且难以验证。本文提出了TrustErase,一个可验证的无数据遗忘框架,利用护照嵌入表示实现即时、模块化且可审计的遗忘。核心思想是将护照视为参数高效适配层中的加密密钥,通过简单去激活即可移除特定类别或数据集,无需重新训练、微调或访问原始数据。框架采用基于奇异值分解的方法将护照隐藏在模型权重中,确保遗忘操作透明且可证明合规。在MNIST、CIFAR10和CIFAR100上的实验表明,TrustErase在数据无限制条件下,性能匹配甚至超越了DELETE、L2UL和Boundary Shrink等现有基准。该工作为构建可信、负责任且可即时遗忘的AI系统建立了新范式。

💡 推荐理由: 提出了一种可验证、无数据的即时机器遗忘方法,解决了现有方法计算成本高且不可审计的问题,对隐私合规AI部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Weijie Chen, Alan B. McMillan

联邦学习(FL)允许多方协作训练模型而不共享原始数据,但标准方法(如FedAvg)将每个客户端视为黑盒,无法隔离对抗性贡献者、审计每个客户端的影响,或尊重已退出参与者的被遗忘权。本文提出Fed-FBD(联邦功能块多样化),一种模块化联邦架构,将ResNet骨干网络分解为六个功能块(stem、四个残差组和分类头),并维护一个包含N种颜色变体的仓库,每种变体由独立跟踪和贡献者标记的块组装而成。Fed-FBD提供FedAvg所不具备的三种能力:(i) 架构保障的块级隔离,使对抗性或错误标记的客户端无法污染干净的变体;(ii) 设计上的隐私保护,在应用任何隐私机制之前,成员推断优势已与随机猜测无异;(iii) 在亚秒级成本且无需重新训练的情况下,外科手术式地遗忘已退出参与者的贡献。在六个MedMNIST-2D数据集、224x224的PathMNIST和CIFAR-10上的实验表明,在规模足够的数据集上,Fed-FBD以0.3%-3.1%的IID准确率下降换取这些保证,在四个数据集中的三个上,在Dirichlet alpha=1.0时与FedAvg的差距保持在0.8%-4.0%以内,并且所有六种对抗性攻击都被限制在中毒客户端的自身块内,对干净变体的AUC漂移不超过±0.01。

💡 推荐理由: 联邦学习中隐私、隔离与遗忘是安全关键需求。Fed-FBD首次在架构层面同时实现块级隔离、固有隐私和高效机器遗忘,为医疗等敏感场景提供可落地的安全设计思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 3.5
Conf: 50%
👥 作者: Vedant Jawandhia, Daksh Ahuja, Ghufran Alam Siddiqui, Prashant Trivedi, Yash Sinha, Pratik Narang

本文提出了一种名为 PURGE 的机器遗忘算法,其核心思想基于持续学习(Continual Learning, CL)与机器遗忘(Machine Unlearning, MU)的本质二元性:持续学习旨在学习新任务而不遗忘旧知识,而机器遗忘则旨在擦除特定数据的同时保持模型在保留集上的性能。PURGE 通过借鉴 A-GEM 的梯度投影方法,将遗忘步骤的梯度约束在保留集损失不增加的可行方向内,从而在每次更新时保护保留集性能。在此基础上,PURGE 进一步实现了多层表示擦除:它不仅关注输出层,而是在中间隐藏层将遗忘集样本的激活分布推向保留集分布,从而更彻底地移除信息,避免仅在输出层压制。一个关键设计是“保留混淆目标”(retain-confusion target):不同于将遗忘集输出推向均匀分布(作者发现均匀分布易被成员推断攻击检测到),PURGE 将遗忘集输出推向模型在保留集上的自然混淆分布,使得遗忘后的模型难以与从头重新训练的模型区分。算法还引入了两个自调节停止准则:保留损失预算和遗忘准确率目标,使算法自动决定何时停止,无需手动调整训练轮数。在 CIFAR-10、MNIST、SVHN、STL10、PathMNIST 五个数据集上的 22 个类别级遗忘任务实验中,PURGE 持续保持了保留集准确率高于 96%,同时成员推断攻击的 AUROC 趋近于理想值 0.5,在隐私-效用前沿上优于梯度上升、KL-均匀分布以及多个已发表基线方法。该方法对于大语言模型中特定数据遗忘场景(如版权内容移除、隐私数据擦除)具有潜在迁移价值。

💡 推荐理由: PURGE 提出了一种高效且隐私保护更强的机器遗忘方法,能够在不损害模型整体性能的前提下精确擦除指定数据,对于满足数据隐私法规(如 GDPR“被遗忘权”)以及防御成员推断攻击具有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Matthew Regehr, Gautam Kamath, Andrew Lowy

本文研究了机器学习中的“遗忘”(unlearning)问题,即如何从已训练好的模型中移除某个用户数据的影响,以满足如“被遗忘权”等法律和用户需求。针对光滑强凸损失函数下的随机优化场景,前期工作已经提出了一些遗忘算法及其误差界,但遗忘的统计代价——即与从头再训练相比,遗忘算法在泛化误差上的额外成本——尚未明确。本文几乎完全解决了这一问题:作者证明了近似ε-遗忘的额外种群风险(excess population risk)的上界和下界,并且这些界除了一个条件数因子外是紧的。对于单位球上的均值估计,上下界完全匹配。最优遗忘率等于通常的统计误差加上一个遗忘惩罚项,该惩罚项在从头再训练率和随ε/d增长而指数级减小的项之间插值,其中d是模型维度。特别地,当ε远大于d时,所提出的ε-遗忘算法相比从头再训练和差分隐私基线,在精度上呈指数级提升;而当ε小于等于d时,从头再训练是最优的。该工作为理解遗忘的基本统计成本提供了理论基础。

💡 推荐理由: 该工作首次几乎严格确定了机器学习遗忘的统计代价,揭示了在何种条件下遗忘可以显著优于再训练,对隐私法规合规及模型部署具有理论指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ali Mahdavi, Azadeh Zamanifar, Amirfarhad Farhadi, Omid Kashefi

该论文提出了一种高效的联邦学习因果遗忘方法 HF-KCU,用于在不完全重训练的情况下移除特定客户的数据贡献,以满足隐私法规(如 GDPR)的数据删除要求。传统方法从头重训练计算成本极高(O(d^3)),而 HF-KCU 通过 Krylov 子空间中的共轭梯度迭代近似影响函数,将复杂度降至 O(kd)(k<<d)。其核心创新包括:(1) 因果加权机制,仅让持有被删除数据的客户端接收参数更新,避免对其他客户端产生虚假影响;(2) 能够处理有界对抗性扰动(对 Hessian 和梯度的扰动),在现实威胁模型下提供优雅的性能退化。实验在 CIFAR-10、MNIST、Fashion-MNIST 上使用 ResNet-18、SimpleCNN 和 ViT-Lite 架构验证:在 CIFAR-10 上,HF-KCU 比重训练快 47.75 倍,测试精度仅下降 0.60%(71.16% vs 71.76%);成员推理攻击在遗忘集上的成功率为 0.499,与重训练模型一致,证明有效恢复了隐私。论文还提供了收敛性保证,证明 Krylov 近似误差随 O((κ^(1/2)-1)/(κ^(1/2)+1)) 衰减(κ 为 Hessian 条件数)。该方法的精确性和效率使其适用于异步删除请求且计算预算受限的生产联邦学习系统。

💡 推荐理由: 联邦学习需频繁响应用户数据删除请求,但重训练代价高昂。HF-KCU 以近乎无损的精度和数十倍加速实现高效遗忘,且能抵抗对抗性扰动,为合规性提供了切实可行的工程方案。

🎯 建议动作: 研究跟进,评估是否可集成到现有联邦学习框架中。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
INFO
PAPER 2026-05-14

Reinforcement Unlearning.

推荐 14.5
Conf: 50%
👥 作者: Dayong Ye, Tianqing Zhu, Congcong Zhu, Derui Wang, Kun Gao 0006, Zewei Shi, Sheng Shen 0005, Wanlei Zhou 0001, Minhui Xue 0001

本文首次系统性地研究了强化学习中的机器遗忘问题,即“强化遗忘”。传统机器遗忘研究主要关注监督学习和无监督学习,而强化学习领域中,智能体在与环境交互过程中会记忆环境特征,引发隐私风险。根据数据保护法规,环境所有者有权撤销智能体对训练数据的访问,因此需要让智能体遗忘特定环境的知识。然而,强化遗忘面临三个独特挑战:1) 如何设计针对环境的遗忘方案;2) 如何避免遗忘过程损害智能体在其他环境中的性能;3) 如何有效评估遗忘效果。针对这些挑战,作者提出了两种强化遗忘方法:第一种基于递减强化学习,通过逐步减少目标环境中的奖励信号,使智能体逐渐擦除先前学到的知识;第二种利用环境中毒攻击,在目标环境中注入误导性反馈,迫使智能体学习错误知识以覆盖原有记忆。此外,为了评估遗忘效果,作者引入了“环境推断”概念,即通过分析智能体在目标环境中的行为来判断遗忘是否成功。实验部分(依据摘要推断)在多个连续控制环境中验证了两种方法的有效性,表明它们能在保持其余环境性能的同时实现遗忘,且环境推断能够可靠地量化遗忘程度。该研究填补了强化学习遗忘领域的空白,为隐私合规提供了新的技术路径。

💡 推荐理由: 强化学习广泛应用于机器人、自动驾驶、游戏等场景,环境数据可能包含敏感信息。本文提出的强化遗忘方法首次解决了环境级数据删除的隐私需求,对满足GDPR等法规的“被遗忘权”至关重要,同时启发了安全从业者关注强化学习模型的数据生命周期管理。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ahmed Mehdi Inane, Vincent Quirion, Gintare Karolina Dzugaite, Ioannis Mitliagkas

本文研究了基于噪声的认证机器学习遗忘问题。现有方法面临一个硬性天花板:为保证遗忘认证所需添加的噪声量通常会严重破坏模型效用,尤其是在大规模删除请求场景下。结合公共数据是差分隐私中缓解这一矛盾的常用技术,但在遗忘领域尚未被充分探索。本文提出非对称朗之万遗忘(ALU)框架,利用公共数据来降低隐私成本。理论证明,注入公共数据能使遗忘成本以 $O(1/n_{\mathrm{pub}}^2)$ 的因子降低,保证了相对于重新训练的计算优势,从而建立了一种新的控制机制:从业者可以通过增加公共数据量来减少高噪声需求及其伴随的效用损失。此外,本文分析了分布不匹配的现实场景,明确刻画了公共与私人源数据之间的分布偏移如何影响效用。实验表明,ALU 能够在模型需要批量遗忘固定比例数据(标准对称方法在此情况下变得不切实际)时保持高效用。基于变分 Rényi 散度与成员推断攻击的实证评估证实,在合理的分布偏移下,ALU 能有效抵御隐私攻击同时保留模型效用。

💡 推荐理由: 为大规模机器学习遗忘提供了一种实用的噪声控制方案,利用公共数据突破效用瓶颈,对隐私法规合规(如GDPR“被遗忘权”)具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ishrak Hamim Mahi, Siam Ferdous, Md Sakib Sadman Badhon, Nabid Hasan Omi, Md Habibun Nabi Hemel, Farig Yousuf Sadeque, Md. Tanzim Reza

该论文研究了机器遗忘(Machine Unlearning)领域中的类别级遗忘问题,提出了一种基于 SISA(Sharded, Isolated, Sliced, and Aggregated)框架的改进方案,用于卷积神经网络(CNN)架构。随着图像生成模型等AI系统的普及,数据隐私和用户同意问题日益突出,当用户要求删除其数据时,模型需要能够移除特定数据的影响而无需完全重新训练。论文提出的方法在标准SISA基础上引入了强化重放机制(reinforced replay mechanism)和门控网络(gating network),以增强选择性遗忘的效率。实验在多个图像数据集和不同CNN配置上进行,结果表明该方法能够有效实现类别级遗忘,在保持模型性能的同时显著降低重新训练的开销。论文还指出了SISA类遗忘方法在隐私敏感型AI应用中的部署潜力,并公开了实现代码。适合对机器学习隐私、数据删除合规性以及模型维护效率感兴趣的研究人员和工程师阅读。

💡 推荐理由: 随着数据隐私法规(如GDPR)要求用户数据删除权,机器遗忘技术成为AI合规的关键。该研究提供了实用的类别级遗忘方法,有助于降低模型维护成本,保护用户隐私。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)