Block Diffusion【202503】：在自回归与扩散语言模型之间插值【Interpolating Between Autoregressive and Diffusion LM】

news2026/4/7 0:25:29

块扩散：在自回归与扩散语言模型之间插值Marianne Arriola† ∗Aaron Kerem Gokaslan†Justin T. Chiu‡Zhihan Yang†Zhixuan Qi† Jiaqi Han¶Subham Sekhar Sahoo†Volodymyr Kuleshov†摘要扩散语言模型因其并行生成和可控性的潜力，相比自回归模型具有独特优势，但它们在似然建模方面落后且仅限于固定长度生成。本研究引入一类块扩散语言模型，其在离散去噪扩散和自回归模型之间进行折衷。块扩散通过支持灵活长度生成，并利用KV缓存和并行token采样提升推理效率，克服了这两种方法的关键局限。我们提出了一套构建高效块扩散模型的方案，包括高效的训练算法、梯度方差估计器以及数据驱动噪声调度，以最小化方差。块扩散在语言建模基准上为扩散模型创造了新的最先进性能，并能生成任意长度序列。我们提供代码1, 以及模型权重和项目页面的博客文章：https://m‑arriola.com/bd3lms1 引言扩散模型广泛应用于生成图像（Ho等人，2020；Dhariwal Nichol，2021；Sahoo等人，2024b）和视频（Ho等人，2022；Gupta等人，2023），并且在生成离散数据（如文本（Lou等人，2024；Sahoo等人，2024a）或生物序列（Avdeyev等人，2023；Goel等人，2024））方面正变得越来越有效。相较于自回归模型，扩散模

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2490792.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！