SSD‑LM【202210】:用于文本生成与模块化控制的半自回归单纯形扩散语言模型
SSD‑LM:用于文本生成与模块化控制的半自回归单纯形扩散语言模型Xiaochuang Han♠Sachin Kumar♣Yulia Tsvetkov♠♠Paul G. Allen 计算机科学与工程学院,华盛顿大学♣语言技术研究所,卡内基梅隆大学 {xhan77,yuliats}@cs.washington.edu♠ sachink@cs.cmu.edu♣摘要尽管扩散模型在连续值域(例如图像)领域取得了越来越大的成功,但在离散域(如文本)领域的类似努力尚未达到自回归语言模型的性能水平。本文介绍了SSD‑LM——一种基于扩散的语言模型,包含两项关键设计选择。首先,SSD‑LM是半自回归的,通过迭代生成文本块,使得解码时输出长度灵活可变,同时能够进行局部双向上下文更新。其次,它是单纯形基础的,在自然词汇表空间而非学习到的隐空间上执行扩散,使我们能够无需任何调整直接利用现成的分类器,实现分类器引导和模块化控制。我们在无约束文本生成基准测试上评估了SSD‑LM,结果表明它在标准质量和多样性指标方面与强大的自回归GPT‑2模型持平甚至超越,同时大幅优于基于扩散的基线模型。在可控文本生成任务中,SSD‑LM也优于其他有竞争力的基线模型,并在模块化方面具有额外优势。11 引言扩散模型(Sohl‑Dickstein等人,2015),训练用于迭代优化带噪声的输入,近年来已成为多个连续值域(如图像(Ho等人,2020)、音频(Kong等人,2021)、视频(Ho等人, 2022)等)中生成建模
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2490791.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!