摘要
大型预训练语言模型已被证明能够在其参数中存储事实性知识,并在下游自然语言处理(NLP)任务的微调中取得了最先进的结果。然而,它们访问和精准操作知识的能力仍然有限,因此在知识密集型任务中,其表现落后于针对特定任务设计的架构。此外,如何为它们的决策提供出处(可追溯性)以及如何更新其世界知识仍是开放的研究问题。到目前为止,带有可微分访问机制以利用显式非参数存储的预训练模型仅在抽取式下游任务中进行了探索。我们探索了一种通用的微调方案——检索增强生成(Retrieval-Augmented Generation, RAG),这类模型结合了预训练的参数化和非参数化记忆,用于语言生成。我们提出的RAG模型中,参数化记忆是一个预训练的序列到序列(seq2seq)模型,非参数化记忆是一个通过预训练神经检索器访问的维基百科密集向量索引。我们比较了两种RAG的实现方式,一种是在整个生成序列中条件于同一批检索到的文本段落,另一种则可以为每个生成的词使用不同的文本段落。我们在多种知识密集型NLP任务上对模型进行微调和评估,在三个开放域问答任务中创造了新的最先进成绩,超过了参数化seq2seq模型和特定任务的检索-抽取架构。对于语言生成任务,我们发现RAG模型生成的语言比最先进的仅参数化seq2seq基线更加具体、多样且符合事实。
1 引言
预训练的神经语