#machine unlearning

共收录 2 条相关安全情报。

👥 作者: Zhangheng LI, Jianing Zhu, Junyuan Hong, Sungmin Eum, Shuowen Hu, Suya You, Zhangyang Wang

该研究针对多模态大语言模型（MLLM）中的机器遗忘（Machine Unlearning）机制的安全性提出质疑。MLLM在训练时可能无意中编码了隐私敏感数据，因此多模态机器遗忘（MMU）被用于强制模型遗忘这些信息。但作者发现，当模型公开后，恶意用户可通过一种名为“提示优化参数抖动”（POPS）的对抗策略，近乎完整地恢复出本应被遗忘的知识。POPS方法包含两个阶段：首先通过后缀优化（prompt-suffix optimization）诱导受害者模型生成潜在的隐私样本；然后利用这些合成输出对模型进行微调，从而揭露真实的隐私信息。实验在多个MMU基准测试上进行，结果表明现有MMU算法存在严重缺陷，POPS能够实现近乎完全的知识恢复，揭示了基于MMU的隐私保护存在根本性漏洞。该论文对MLLM隐私保护领域提出了严峻挑战，提示安全从业者需要重新审视和加强遗忘机制的鲁棒性。

💡 推荐理由: 该研究暴露了多模态大模型机器遗忘机制的根本性脆弱性，证明即使模型执行了遗忘操作，攻击者仍可通过对抗方法恢复隐私信息，威胁到数据隐私保护的有效性。

🎯 建议动作: 研究跟进，评估自身模型的机器遗忘机制是否易被类似POPS方法攻破，并部署对抗测试流程。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mengying Zhang, Derui Wang, Ruoxi Sun, Xiaoyu Xia, Shuang Hao, Minhui Xue

本论文是第一篇系统化整合机器学习模型去记忆化（dememorization）两种主要方法——不可学习性（unlearnability）和机器遗忘（machine unlearning）——的研究综述。不可学习性通过在训练前向数据注入难以感知的扰动，从而降低模型对特定数据的学习能力；机器遗忘则是在训练后移除模型已获取的敏感信息，防止未经授权的披露或使用。论文指出，这两种防御手段虽旨在保护知识不被滥用，但都存在“浅层去记忆化”（shallow dememorization）的问题，即在权重扰动下会错误声称数据已不可学或已遗忘。此外，输入扰动可能影响后续机器遗忘的效果，而机器遗忘可能意外恢复被不可学习性隐藏的领域知识。研究贡献包括：(i) 提出统一的不可学习性和可扩展机器遗忘方法分类法；(ii) 通过实验评估主流方法的鲁棒性、相互作用及浅层去记忆化问题；(iii) 首次给出经过认证遗忘（certified unlearning）处理的模型去记忆化深度的理论保证。该工作为在整个机器学习生命周期中统一去记忆化机制、实现敏感知识的深度遗忘奠定了基础。

💡 推荐理由: 数据隐私法规要求模型‘删除’个人数据，但现有去记忆化方法存在虚假信心和浅层遗忘风险。本SoK首次系统揭示两种方法的内在弱点与相互作用，为构建可信赖的遗忘机制提供理论基准。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#machine unlearning

POPS: Recovering Unlearned Multi-Modality Knowledge in MLLMs with Prompt-Optimized Parameter Shaking

SoK: Unlearnability and Unlearning for Model Dememorization