#diffusion-language-model 主题 - Cyber Security Daily Radar

👥 作者: Yihan Wang, N. Asokan

本研究关注扩散语言模型（DLM）中的训练数据记忆与提取问题。以往对于大语言模型记忆性的研究几乎完全基于前缀条件提取，这适合自回归模型，但扩散语言模型可以在任意位置去噪被遮蔽的token，因此仅用前缀探测会低估训练数据提取的风险。为真实建模DLM中训练数据的可提取性，作者提出了"填充提取"（infilling extraction）协议，该协议由任意二元掩码参数化，涵盖前缀条件提取并考虑DLM的双向归纳偏差。在LLaDA-8B和Dream-7B模型上，针对五种提取模式、三种训练流程和三个语料库（涵盖逐字和部分泄露）进行了实验。结果显示，掩码几何形状控制着可提取性：边缘条件掩码提取的逐字序列比前缀条件掩码多三倍，且双向访问打开了自回归模型无法使用的通道。特别是，一个能够访问训练数据（其中个人可识别信息已被编辑）的现实攻击者，从DLM中提取已编辑电子邮件地址的召回率甚至高于从规模匹配的自回归模型中提取。解码的可调参数显著影响提取性能，而后续的监督微调阶段并未消除先前的记忆。本工作揭示了扩散语言模型在训练数据泄露方面的独特风险，强调了在部署前需评估此类模型的隐私安全性。

💡 推荐理由: 扩散语言模型因其双向去噪机制，训练数据记忆风险远超此前认知，传统前缀提取评估严重低估泄露程度，安全从业者需重新审视此类模型的隐私安全评估方法。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#diffusion-language-model

Extracting Training Data from Diffusion Language Models via Infilling