Block Diffusion【202503】:在自回归与扩散语言模型之间插值【Interpolating Between Autoregressive and Diffusion LM】
块扩散:在自回归与扩散语言模型之间插值Marianne Arriola† ∗Aaron Kerem Gokaslan†Justin T. Chiu‡Zhihan Yang†Zhixuan Qi† Jiaqi Han¶Subham Sekhar Sahoo†Volodymyr Kuleshov†摘要扩散语言模型因其并行生成和可控性的潜力,相比自回归模型具有独特优势,但它们在似然建模方面落后且仅限于固定长度生成。本研究引入一类块扩散语言模型,其在离散去噪扩散和自回归模型之间进行折衷。块扩散通过支持灵活长度生成,并利用KV缓存和并行token采样提升推理效率,克服了这两种方法的关键局限。我们提出了一套构建高效块扩散模型的方案,包括高效的训练算法、梯度方差估计器以及数据驱动噪声调度,以最小化方差。块扩散在语言建模基准上为扩散模型创造了新的最先进性能,并能生成任意长度序列。我们提供代码1, 以及模型权重和项目页面的博客文章:https://m‑arriola.com/bd3lms1 引言扩散模型广泛应用于生成图像(Ho等人,2020;Dhariwal Nichol,2021;Sahoo等人,2024b)和视频(Ho等人,2022;Gupta等人,2023),并且在生成离散数据(如文本(Lou等人,2024;Sahoo等人,2024a)或生物序列(Avdeyev等人,2023;Goel等人,2024))方面正变得越来越有效。相较于自回归模型,扩散模
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2490792.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!