SSD‑LM【202210】：用于文本生成与模块化控制的半自回归单纯形扩散语言模型

news2026/4/7 0:25:29

SSD‑LM：用于文本生成与模块化控制的半自回归单纯形扩散语言模型Xiaochuang Han♠Sachin Kumar♣Yulia Tsvetkov♠♠Paul G. Allen 计算机科学与工程学院，华盛顿大学♣语言技术研究所，卡内基梅隆大学 {xhan77,yuliats}@cs.washington.edu♠ sachink@cs.cmu.edu♣摘要尽管扩散模型在连续值域（例如图像）领域取得了越来越大的成功，但在离散域（如文本）领域的类似努力尚未达到自回归语言模型的性能水平。本文介绍了SSD‑LM——一种基于扩散的语言模型，包含两项关键设计选择。首先，SSD‑LM是半自回归的，通过迭代生成文本块，使得解码时输出长度灵活可变，同时能够进行局部双向上下文更新。其次，它是单纯形基础的，在自然词汇表空间而非学习到的隐空间上执行扩散，使我们能够无需任何调整直接利用现成的分类器，实现分类器引导和模块化控制。我们在无约束文本生成基准测试上评估了SSD‑LM，结果表明它在标准质量和多样性指标方面与强大的自回归GPT‑2模型持平甚至超越，同时大幅优于基于扩散的基线模型。在可控文本生成任务中，SSD‑LM也优于其他有竞争力的基线模型，并在模块化方面具有额外优势。11 引言扩散模型（Sohl‑Dickstein等人,2015），训练用于迭代优化带噪声的输入，近年来已成为多个连续值域（如图像（Ho等人,2020）、音频（Kong等人,2021）、视频（Ho等人, 2022）等）中生成建模

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2490791.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！