推荐 3.5
Conf: 50%
该论文首次系统研究了掩码扩散语言模型(MDLM)在训练阶段的后门攻击。MDLM是一种新兴的文本生成范式,其训练时安全性尚未得到充分探索。现有的针对高斯扩散模型或自回归语言模型的后门攻击无法直接应用于MDLM,因为MDLM依赖于离散状态破坏和迭代去噪,而非连续加噪或从左到右预测。为此,作者提出SHADOWMASK后门攻击方法,通过修改MDLM的前向破坏过程,将标准的全掩码终端分布替换为触发词-掩码混合先验分布,从而创建一条从触发词破坏状态到攻击者指定目标的专用去噪路径,同时保持干净的去噪行为。论文给出了后门前向过程的数学定义,推导了反向时间后验,并得到了连续时间训练目标。在基于DiT的MDLM和LLaDA-8B-Instruct模型上,使用WikiText-103、OpenWebText和Alpaca数据集进行评估,结果表明SHADOWMASK实现了接近100%的攻击成功率,显著优于标准数据投毒,且基本保持了干净效用,在全模型微调和参数高效微调下仍有效,并对代表性防御方法具有鲁棒性。
💡 推荐理由: MDLM作为新兴文本生成范式,其安全性尚未被充分研究。本文揭示了MDLM存在训练时后门攻击风险,攻击者可通过修改前向过程植入后门,且攻击成功率高、隐蔽性强。安全社区需关注此类新型攻击路径,并在部署MDLM前进行安全评估。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)