#diffusion-llm 主题 - Cyber Security Daily Radar

👥 作者: Yingzi Ma, Zhengyue Zhao, Xiaogeng Liu, Minhui Xue, Yue Zhao, Chaowei Xiao

本文提出了一种针对扩散大规模语言模型（dLLMs）的黑盒越狱攻击方法MaskForge。dLLMs通过迭代去噪部分掩码序列生成文本，其安全面与自回归LLMs不同：掩码令牌是原生输入，令牌基于置信度而非位置确定，因此有害内容可以通过填充（infilling）并在监控前缀之外诱导。现有越狱方法要么忽略这种原生填充能力，要么使用低多样性的掩码模板，缺乏结构适应性。MaskForge将dLLM红队测试转化为对结构模式库的优化搜索：它抽象成功尝试为可重用模式，使用上置信界（UCB）多臂赌博机算法选择与目标兼容的模式，并在当前库失败时调用评分器引导的回落机制；成功尝试被蒸馏回模式库，实现跨目标的经验积累。在5个公开dLLM和3个基准上，MaskForge的平均攻击成功率达79.3%，相对最强基线提升17.6%；其成熟模式库无需更新即可迁移至AdvBench，攻击成功率达88.2%，相对最强基线提升67%。该研究揭示了dLLM特有的安全风险，为防御者提供了新的攻击面认知。

💡 推荐理由: 扩散LLM在工业界应用渐广，其双向上下文生成机制带来与传统自回归模型不同的安全面。MaskForge首次系统性地利用dLLM的填充能力进行自适应攻击，防御者需了解此类攻击向量以设计针对性防护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#diffusion-llm

MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models