#diffusion-llm

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Yingzi Ma, Zhengyue Zhao, Xiaogeng Liu, Minhui Xue, Yue Zhao, Chaowei Xiao

本文提出了一种针对扩散大规模语言模型(dLLMs)的黑盒越狱攻击方法MaskForge。dLLMs通过迭代去噪部分掩码序列生成文本,其安全面与自回归LLMs不同:掩码令牌是原生输入,令牌基于置信度而非位置确定,因此有害内容可以通过填充(infilling)并在监控前缀之外诱导。现有越狱方法要么忽略这种原生填充能力,要么使用低多样性的掩码模板,缺乏结构适应性。MaskForge将dLLM红队测试转化为对结构模式库的优化搜索:它抽象成功尝试为可重用模式,使用上置信界(UCB)多臂赌博机算法选择与目标兼容的模式,并在当前库失败时调用评分器引导的回落机制;成功尝试被蒸馏回模式库,实现跨目标的经验积累。在5个公开dLLM和3个基准上,MaskForge的平均攻击成功率达79.3%,相对最强基线提升17.6%;其成熟模式库无需更新即可迁移至AdvBench,攻击成功率达88.2%,相对最强基线提升67%。该研究揭示了dLLM特有的安全风险,为防御者提供了新的攻击面认知。

💡 推荐理由: 扩散LLM在工业界应用渐广,其双向上下文生成机制带来与传统自回归模型不同的安全面。MaskForge首次系统性地利用dLLM的填充能力进行自适应攻击,防御者需了解此类攻击向量以设计针对性防护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)