GPT系列论文

news2025/7/28 9:26:26

目录

GPT

无监督预训练

有监督微调

如何将模型应用于下游任务？

试验结果

GPT-2

摘要

Introduction

Approach

数据集&模型

试验结果

GPT-3

核心点

名词解释

few-shot做法图示

数据集

GPT

由无监督预训练+有监督微调组成

无监督预训练

有监督微调

如何将模型应用于下游任务？

做法是在Transformer输出层后增加线性层

试验结果

GPT-2

论文：Language Models are Unsupervised Multitask Learners

注：标题里的多任务学习是指模型同时在NLP中的多个任务上进行学习

摘要

用了 WebText，有百万级别的文本，最大的 GPT-2 模型有 1.5B 参数。

本文的主要卖点是 zero-shot。

Introduction

之前主流任务都是在一个任务上收集一个数据集，然后来训练。这是因为，当前模型的泛化性都不是很好。Bert和GPT提出后，主流是在大的数据集上进行预训练，然后对子任务再 fine-tune。这仍然有两个问题：

在子任务上还是需要重新训练模型
需要针对子任务收集数据集，这导致，模型在扩展到新任务时开销是比较大的。

GPT-2 还是做语言模型，但是在扩展到下游任务时，会有 zero-shot 的设定，不需要再重新训练模型

Approach

GPT中，在微调的时候引入了开始符，间隔符等特殊符号，这些是模型在预训练时候没有见到过的（微调的时候会进行学习）。现在 GPT-2 要做的是 zero-shot，模型在做下游任务时不能进行微调，因此不能引入这些特殊符号，否则模型就会很困惑，输入的形式应该更像自然语言，和之前相似。

这就引入了 prompt（McCann et al 2018年提出），用一些自然语言来充当一些符号的作用。

比如翻译任务，可以写成一个序列：translate to french, english text, french text。这里既有明显的起始，分隔，又是正常的自然语言
比如阅读理解任务，可以写成：answer the question, document, question, answer 。是同样的道理

为什么可以工作（可能）：

模型足够强大，能够理解提示符
在文本里面，这样的话可能也很常见
数据集&模型

数据：Common Crawl是一个网页抓取项目，抓取网页供大家下载。但是信噪比低，有些网页可能就是垃圾网页。因此最终使用了 Reddit（算是一些已经过滤好的网页），最后得到4500万个链接，最终的数据集有800w文本，40GB。

因为数据量很大了，因此可以设计更大的模型。一共设计了 4 个。

试验结果

和别的zero-shot方法比，性能是提升的

在NLP的一些任务上还不错，一些任务上差一些。但是随着模型大小的增加，性能还是呈上升的趋势。

GPT-3

论文：Language Models are Few-shot Leaners

核心点
采用few-shot
尽管few-shot会给少量带标签的样本，但GPT-3在预训练之后，不做任何的梯度更新or微调
名词解释
meta-learning，元学习：作者取名不是很精确，作者大致意思是训练一个很大的模型，并且泛化性能还不错
in-context learning，上下文学习：在推理的时候，即使给一些带标注的样本，也不对模型权重进行更新或者微调。
few-shot做法图示

图中的箭头叫做prompt（提示），告诉模型接下来该你输出了

数据集

Common Crawl数据集量很大，但是大部分文章质量都比较低，因此需要进行处理

1.训练一个二分类模型(逻辑回归)，redit数据集作为正例，Crawl数据集作为负例。训练好分类器之后对Common Crawl数据集做预测，如果预测偏正例的话就保留，如果预测偏负例的话就过滤掉。

2.去重，采用lsh算法判断两篇文章（两个集合）的相似性，去除相似度高的

3.增加已知的高质量数据集，比如BERT,GPT, GPT-2采用的所有数据集

可以看到，虽然Common Crawl数据集tokens非常多，但在训练过程中的采用只占60%，即训练时不是平等对待每一个数据集的

InstructGPT

论文：Training language models to follow instructions with human feedback， 2022.03

训练主要是两大核心技术点

1. Instruct Tuning（指令微调）

2. 基于人工反馈的强化学习（Reinforcement learning from Human Feedback， RLHF)

ChatGPT

只有blog，没有官方论文，官方说和InstructGPT是兄弟模型

训练

基本上分成三大步骤（具体是四步）

预训练的一个大作用：

在多种语言上做预训练后，只要教某一种语言的某一个任务，大模型会自动学习其他语言的相同任务

四个详细步骤

1.预训练，学习文字接龙

在推理时候，每一次输出是不同的，因此GPT的直接输出是概率分布，然后从概率分布中进行采样，概率大的词更容易被采样到，但每次并不是取概率最大的词作为输出

2. 人类老师引导文字接龙的方向

不需要穷举，即不需要标注太多的符合人类理解的语句，每种问题提供一些正确范例就行了，因为在第一阶段预训练大模型其实也已经部分学习到这些了。

3. 模仿人类老师的喜好

ChrtGPT 的API之前已经公开，openAI收集了很多人类问题，因为ChatGPT是具有随机性的，因此同一个问题会输出多种答案，然后雇佣人类对每个问题的不同答案进行评分（人类老师不需要提供正确答案，只需要评分）

接下来训练一个教师模型，来自动对每个问题的每个答案进行评分，从而让教师模型模仿人类的偏好

4. 用强化学习RL向模仿老师学习

将问题和chatGPT的回答一起输入到教师模型中，将教师模型输出的分数作为强化学习中的reward，调整chatGPT的参数，从而使得教师模型得到最大的reward。

模型大小与训练集总结

模型	发布日期	模型参数大小	训练集大小
GPT	2018.	117M (0.117B)	1GB
GPT-2	2019	1.5B (1542M)	40GB
GPT-3	2020	175B	570GB
InstructGPT	2022.03
ChatPT	2022
GPT-4

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/427519.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

团队模型、论文、博文、直播合集，点击此处浏览一、论文本文介绍我们被机器学习顶级国际会议ICLR 2023接收的论文 “DamoFD: Digging into Backbone Design on Face Detection" 论文链接：https://openreview.net/pdf?idNkJOhtNKX91 开源代码&a…

阅读更多...

云原生_kubernetes(k8s)介绍

云原生_kubernetes(k8s)介绍

目录一、应用部署方式演变二、k8s介绍三、k8s的组件四、k8s中的概念五、k8s资源管理方式 1、命令式对象管理 2、命令式对象配置 3、声明式对象配置一、应用部署方式演变在部署应用程序的方式上，主要经历了三个时代： 1、物理机部署&#…

阅读更多...

Vue 核心（一）

Vue 核心（一）

文章目录Vue 核心（一）一、 Vue 简介1、概述2、学前准备3、第一个程序二、模板语法三、数据绑定四、 MVVM 模型五、数据代理1、 defineProperty2、理解数据代理3、 Vue中的数据代理六、事件处理1、事件的基本使用2、键盘事件七、计算属性与监视…

阅读更多...

难以置信，已经有人用 ChatGPT 做 Excel 报表了？

难以置信，已经有人用 ChatGPT 做 Excel 报表了？

要问2023年初科技领域什么最火，那自然是 ChatGPT。 ChatGPT 由人工智能研究实验室 OpenAI 于2022年11月30日推出。上线短短5天，用户数量已突破100万，在今年2月份，用户数量已经突破1亿。 ChatGPT 是一个超级智能聊天机器人&#…

阅读更多...

GitLab CI/CD 新书发布，助企业降本增效

GitLab CI/CD 新书发布，助企业降本增效

前言大家好，我是CSDN的拿我格子衫来， 昨天我的第一本书《GitLab CI/CD 从入门到实战》上架啦，这是业内第一本详细讲解GitLab CI/CD的书籍。历经无数个日夜，最终开花结果。感触良多，今天就借这篇文章来谈一谈这本书的…

阅读更多...

贯穿设计模式第一话--单一职责原则

贯穿设计模式第一话--单一职责原则

🥳🥳🥳 茫茫人海千千万万，感谢这一刻你看到了我的文章，感谢观赏，大家好呀，我是最爱吃鱼罐头，大家可以叫鱼罐头呦~🥳🥳🥳 从今天开始，将…

阅读更多...

基于51单片机的智能婴儿看护床设计

基于51单片机的智能婴儿看护床设计

需要源码及原理图文件请私信！！！！ 基于51单片机的智能婴儿看护床设计1、引言2、功能设计系统结构框图3、系统硬件设计3.1声音电路的设计3.2语音播报电路的设计3.3独立按键电路的设计3.4模拟摇床（步进电机驱动电路&#…

阅读更多...

Springboot项目快速实现过滤器功能

Springboot项目快速实现过滤器功能

前言很多时候，当你以为掌握了事实真相的时间，如果你能再深入一点，你可能会发现另外一些真相。比如面向切面编程的最佳编程实践是AOP，AOP的主要作用就是可以定义切入点，并在切入点纵向织入一些额外的统一操作&#xff0…

阅读更多...

尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

视频地址：尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】尚硅谷大数据技术Spark教程-笔记03【SparkSQL…

阅读更多...

Scala之面向对象（2）

Scala之面向对象（2）

目录单例对象（伴生对象）： 创建对象常用的两种方法： （1）使用构造器构造（new） （2）使用静态方法伴生对象的定义： apply方法： app…

阅读更多...

图像分割技术及经典实例分割网络Mask R-CNN（含基于Keras Python源码定义）

图像分割技术及经典实例分割网络Mask R-CNN（含基于Keras Python源码定义）

图像分割技术及经典实例分割网络Mask R-CNN（含Python源码定义） 文章目录图像分割技术及经典实例分割网络Mask R-CNN（含Python源码定义）1. 图像分割技术概述2. FCN与语义分割2.1 FCN简介2.2 反卷积2.2 FCN与语义分割的关系3. Mask …

阅读更多...

Midjourney以图生图的详细教程（含6种案例介绍）

Midjourney以图生图的详细教程（含6种案例介绍）

🏆 文章目标：学习并介绍Midjourney以图生图的详细教程 🍀 Midjourney以图生图的详细教程 ✅ 创作者：熊猫Jay 🎉 个人主页：Jay的个人主页 🍁 展望：若本篇讲解内容帮助到您&#xff0c…

阅读更多...

SQL Server 单表数据查询

SQL Server 单表数据查询

提示： 本篇文章详细介绍怎样向SQLServer中导入表格数据,导入之后根据不同的查询条件完成查询任务. 文章目录前言一、向SQL Server中导入数据二、例题1.查询所有学生的全部信息2.查询学生的学号和姓名3.查询所有学生的姓名和出生年4. 查询所有学生的姓名和出生年&…

阅读更多...

【关于Linux中----生产消费模型】

【关于Linux中----生产消费模型】

文章目录一、生产消费模型1.1概念的引入1.2 321原则二、条件变量2.1概念的引入2.2理解条件变量2.3条件变量的使用三、基于BlockingQueue的生产者消费者模型3.1BlockingQueue的介绍3.2C queue模拟阻塞队列的生产消费模型3.3对生产消费任务的模拟封装四、遗留问题一、生产消费模型…

阅读更多...

基于YOLOv5的水下海洋目标检测

基于YOLOv5的水下海洋目标检测

摘要：水下海洋目标检测技术具有广泛的应用前景，可以用于海洋环境监测、海洋资源开发、海洋生物学研究等领域。本文提出了一种基于 YOLOv5 的水下海洋目标检测方法，使用数据增强方法进行了大量实验，并与其他方法进行了对比&#xf…

阅读更多...

（SQL学习随笔3）SQL语法——SELECT语句

（SQL学习随笔3）SQL语法——SELECT语句

导航基本认识FROM关键字LIMIT与OFFSETORDER BYWHERE条件查询单值比较多条件组合范围筛选空值匹配LIKE通配条件分组运算符和函数数据变换分组运算表连接内连接左(右)外连接全外连接外键约束窗口函数UNION：表上下拼接子查询条件判断PostgreSQLMySQL基本认识 SELECT t…

阅读更多...

【论文阅读】BiSeNet V2用于实时语义分割的双边网络

【论文阅读】BiSeNet V2用于实时语义分割的双边网络

前言BiSeNet V2延续了v1版本的双边结构，分别处理空间细节信息、高层语义信息。同时设计更简洁高效的结构，进行特征提取，实现高精度和高速度。在训练模型时，使用了增强训练策略 ，添加多个辅助训练分支来促进不同浅层网络…

阅读更多...

Spring-aop面向切面

Spring-aop面向切面

1、理解必要的专业术语先看看上面图，这是我的个人理解。(画的丑，主打真实) 1）Advice，通知/增强：类方法中提出来的共性功能(大白话就是提出来的重复代码) 2）Pointcut，切入点/切点&#…

阅读更多...

【微服务】微服务架构下你不得不知的3种部署策略

【微服务】微服务架构下你不得不知的3种部署策略

文章目录前言滚动部署蓝绿部署金丝雀部署总结前言不知道大家有了解过你们公司的软件产品是如何部署的么？采用的什么部署策略？其实在软件开发生命周期中，部署是非常关键的一环，你需要考虑多方面的因素，如何保证你部署…

阅读更多...

【推荐算法】CTR中embedding层的学习和训练

【推荐算法】CTR中embedding层的学习和训练

note 连续特征处理：facebook DLRM模型，对连续值的处理方式是把所有的连续值输入到一个神经网络，然后通过神经网络把它压缩到一个embedding维度大小的一个向量上，然后将Embedding和其他离散特征Embedding Concat起来，再…

阅读更多...

推荐文章

最新文章