思维链提示:激发大语言模型推理能力的突破性方法

news2025/6/4 18:01:44

论文出处: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou
机构: Google Research, Brain Team
发表: 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
arXiv: 2201.11903v6 [cs.CL]

研究背景

大语言模型虽然在许多任务上表现出色,但在需要复杂推理的任务上仍然存在困难,特别是算术、常识和符号推理。传统的提示方法往往只是简单的输入-输出对,无法有效激发模型的推理能力。

核心创新:思维链提示

什么是思维链提示?

思维链提示(Chain-of-Thought Prompting)是一种新的提示方法,通过在少样本示例中提供一系列中间推理步骤,教会大语言模型进行逐步推理。

传统提示 vs 思维链提示对比:

方法类型输入格式输出格式示例
传统提示问题 → 答案直接答案Q: Roger有5个网球,买了2罐,每罐3个,现在有多少?
A: 答案是11
思维链提示问题 → 推理过程 → 答案逐步推理 + 答案Q: Roger有5个网球,买了2罐,每罐3个,现在有多少?
A: Roger开始有5个球。2罐网球每罐3个就是6个球。5+6=11。答案是11

思维链提示的四大优势

  1. 分解复杂问题:将多步问题拆解为中间步骤,为复杂推理分配更多计算资源
  2. 提供可解释性:展示模型推理过程,便于调试和理解
  3. 广泛适用性:适用于任何人类可以通过语言解决的推理任务
  4. 零额外训练:仅需要在提示中提供示例,无需模型微调

实验验证

算术推理实验

研究团队在五个数学应用题数据集上进行了测试,包括GSM8K、SVAMP、ASDiv、AQuA和MAWPS。

主要发现:

  • 规模涌现性:思维链提示只在约100B参数以上的模型中显现效果
  • 复杂问题效果更佳:越复杂的问题,性能提升越显著
  • 超越微调模型:在某些任务上甚至超过了专门微调的模型

GSM8K数学应用题性能对比:

模型标准提示思维链提示性能提升
GPT-3 175B15.6%46.9%+31.3%
PaLM 540B17.9%56.9%+39.0%
Codex19.7%63.1%+43.4%

不同模型规模的表现(GSM8K):

模型系列参数量标准提示思维链提示提升幅度
GPT-3350M2.2%0.5%-1.7%
GPT-31.3B2.4%0.5%-1.9%
GPT-36.7B4.0%2.4%-1.6%
GPT-3175B15.6%46.9%+31.3%
PaLM8B4.9%4.1%-0.8%
PaLM62B9.6%29.9%+20.3%
PaLM540B17.9%56.9%+39.0%

常识推理实验

在五个常识推理数据集上的测试显示,思维链提示同样有效。

常识推理任务性能(PaLM 540B):

任务标准提示思维链提示性能提升
CSQA78.1%79.9%+1.8%
StrategyQA68.6%77.8%+9.2%
Date Understanding49.0%65.3%+16.3%
Sports Understanding80.5%95.4%+14.9%
SayCan80.8%91.7%+10.9%

符号推理实验

通过设计的两个符号推理任务验证了思维链提示的泛化能力。

符号推理任务结果(PaLM 540B):

任务测试类型标准提示思维链提示性能提升
末字母连接域内(2词)7.6%99.4%+91.8%
末字母连接域外(3词)0.2%94.8%+94.6%
末字母连接域外(4词)0.0%63.0%+63.0%
硬币翻转域内(2次)98.1%100.0%+1.9%
硬币翻转域外(3次)49.3%98.6%+49.3%
硬币翻转域外(4次)54.8%90.2%+35.4%

消融实验分析

为了验证思维链的有效性,研究团队进行了三组对照实验:

消融实验结果(LaMDA 137B在GSM8K上):

提示方法性能说明
标准提示6.5%基线
仅方程式5.4%只输出数学方程式
仅可变计算6.4%只输出等长度的点序列
答案后推理6.1%推理过程放在答案后
思维链提示14.3%完整的逐步推理

结果表明,思维链的成功不仅仅因为增加了计算量或方程式,而是因为逐步的自然语言推理过程。

稳健性验证

不同标注者的稳健性

研究团队让三个不同的标注者编写思维链提示,验证方法的稳健性。

不同标注者结果(LaMDA 137B):

数据集标注者A标注者B标注者C标准提示基线
GSM8K14.3%15.5%17.6%6.5%
SVAMP36.7%35.2%37.5%29.5%
ASDiv46.6%46.5%48.7%40.1%
MAWPS57.9%58.2%60.1%43.2%

不同示例数量的影响

示例数量对性能的影响(LaMDA 137B, GSM8K):

示例数量标准提示思维链提示性能差距
1个4.2%8.9%+4.7%
2个5.1%11.2%+6.1%
4个5.8%12.8%+7.0%
6个6.2%13.5%+7.3%
8个6.5%14.3%+7.8%

错误分析

研究团队对LaMDA 137B在GSM8K上的错误进行了详细分析:

正确答案的推理质量(50个样本):

  • 完全正确:48个(96%)
  • 巧合正确:1个(2%)
  • 轻微瑕疵但逻辑正确:1个(2%)

错误答案的错误类型(50个样本):

错误类型占比说明
计算错误8%逻辑正确但计算出错
符号映射错误16%数字符号使用错误
缺少一步22%推理链缺少关键步骤
语义理解错误54%对问题理解有误

应用场景与限制

最佳应用场景

思维链提示在以下三个条件同时满足时效果最佳:

  1. 任务具有挑战性且需要多步推理
  2. 使用大规模语言模型(100B+参数)
  3. 标准提示的性能曲线相对平坦

方法限制

  1. 模型规模依赖:只在大模型中有效,服务成本高
  2. 推理正确性无保证:可能产生看似合理但错误的推理链
  3. 标注成本:大规模应用需要大量高质量示例
  4. "真实推理"存疑:模型是否真正在推理仍是开放问题

技术影响与未来展望

对AI领域的影响

思维链提示的成功表明:

  • 标准提示只是下界:大语言模型的能力被严重低估
  • 涌现能力的重要性:某些能力只在特定规模下才显现
  • 推理能力可激发:不需要专门训练就能获得推理能力

未来研究方向

  1. 自动化思维链生成:减少人工标注成本
  2. 小模型推理能力:在更小模型中实现类似效果
  3. 推理正确性保证:提高推理链的准确性和可靠性
  4. 多模态推理:扩展到图像、视频等其他模态

结论

思维链提示是大语言模型推理能力的一个重要突破。通过简单的提示工程,就能显著提升模型在复杂推理任务上的表现,这为AI系统的实际应用开辟了新的可能性。随着模型规模的继续增长和方法的不断改进,我们有理由期待更强大、更可靠的AI推理系统。

这项研究不仅在技术上具有重要意义,更在于它揭示了大语言模型潜在能力的冰山一角,为未来的AI研究指明了新的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2397132.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NVMe协议简介之AXI总线更新

更新AXI4总线知识 AXI4总线协议 AXI4总线协议是由ARM公司提出的一种片内总线协议 ,旨在实现SOC中各模块之间的高效可靠的数据传输和管理。AXI4协议具有高性能、高吞吐量和低延迟等优点,在SOC设计中被广泛应用 。随着时间的推移,AXI4的影响不…

设计模式——责任链设计模式(行为型)

摘要 责任链设计模式是一种行为型设计模式,旨在将请求的发送者与接收者解耦,通过多个处理器对象按链式结构依次处理请求,直到某个处理器处理为止。它包含抽象处理者、具体处理者和客户端等核心角色。该模式适用于多个对象可能处理请求的场景…

基于Android的医院陪诊预约系统

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

基于Spring Boot 电商书城平台系统设计与实现(源码+文档+部署讲解)

技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…

【金融基础学习】债券回购方式

债券回购作为货币市场的重要工具,本质上是一种以债券为抵押的短期资金借贷行为。在银行间市场,质押式回购与**买断式回购*是两种主要形式。 1. 质押式回购(Pledged Repo, RP) – 所有权不转移的短期融资工具 1.1 质押式回购概述 质押式回购是交易双方…

第五十九节:性能优化-GPU加速 (CUDA 模块)

在计算机视觉领域,实时性往往是关键瓶颈。当传统CPU处理高分辨率视频流或复杂算法时,力不从心。本文将深入探索OpenCV的CUDA模块,揭示如何通过GPU并行计算实现数量级的性能飞跃。 一、GPU加速:计算机视觉的必由之路 CPU的强项在于复杂逻辑和低延迟任务,但面对图像处理中高…

单元测试-概述入门

目录 main方法测试缺点: 在pom.xm中,引入junit的依赖。,在test/java目录下,创建测试类,并编写对应的测试方法,并在方法上声明test注解。 练习:验证身份证合法性 测试成功 测试失败 main方法测试缺点&am…

⚡ Hyperlane —— 比 Rocket 更快的 Rust Web 框架!

⚡ Hyperlane —— 比 Rocket 更快的 Rust Web 框架! 在现代 Web 服务开发中,开发者需要一个既轻量级又高性能的 HTTP 服务器库来简化开发流程,同时确保服务的高效运行。Hyperlane 正是为此而生——一个专为 Rust 开发者设计的 HTTP 服务器库…

《AI Agent项目开发实战》DeepSeek R1模型蒸馏入门实战

一、模型蒸馏环境部署 注:本次实验仍然采用Ubuntu操作系统,基本配置如下: 需要注意的是,本次公开课以Qwen 1.5-instruct模型为例进行蒸馏,从而能省略冷启动SFT过程,并且 由于Qwen系列模型本身性能较强&…

字节golang后端二面

前端接口使用restful格式,post与get的区别是什么? HTTP网络返回的状态码有哪些? go语言切片与数组的区别是什么? MySQL实现并发安全避免两个事务同时对一个记录写操作的手段有哪些? 如何实现业务的幂等性(在…

vscode + cmake + ninja+ gcc 搭建MCU开发环境

vscode cmake ninja gcc 搭建MCU开发环境 文章目录 vscode cmake ninja gcc 搭建MCU开发环境1. 前言2. 工具安装及介绍2.1 gcc2.1.1 gcc 介绍2.1.2 gcc 下载及安装 2.2 ninja2.2.1 ninja 介绍2.2 ninja 安装 2.3 cmake2.3.1 cmake 介绍2.3.2 cmake 安装 2.4 VScode 3. 上手…

三种经典算法优化无线传感器网络(WSN)覆盖(SSA-WSN、PSO-WSN、GWO-WSN),MATLAB代码实现

三种经典算法优化无线传感器网络(WSN)覆盖(SSA-WSN、PSO-WSN、GWO-WSN),MATLAB代码实现 目录 三种经典算法优化无线传感器网络(WSN)覆盖(SSA-WSN、PSO-WSN、GWO-WSN),MATLAB代码实现效果一览基本介绍程序设…

JVM 核心组件深度解析:堆、方法区、执行引擎与本地方法接口

一、JVM 堆内存:对象的生存与消亡之地 作为 Java 虚拟机中最大的内存区域,堆内存是所有对象实例的 “出生地” 与 “安息所”。从程序运行的角度看,所有通过new关键字创建的对象都在堆中分配内存,其生命周期完全由垃圾回收机制&am…

OpenCV4.4.0下载及初步配置(Win11)

目录 OpenCV4.4.0工具下载安装环境变量系统配置 OpenCV4.4.0 工具 系统:Windows 11 下载 OpenCV全版本百度网盘链接:: https://pan.baidu.com/s/15qTzucC6ela3bErdZ285oA?pwdjxuy 提取码: jxuy找到 opencv-4.0.0-vc14_vc15 下载得到 安装 运行op…

使用Mathematica观察多形式根的分布随参数的变化

有两种方式观察多项式的根随着参数变化:(1)直接制作一个小的动态视频;(2)绘制所有根形成的痕迹(locus)。 制作动态视频: (*Arg-plane plotting routine with plotting …

【C++高级主题】转换与多个基类

目录 一、多重继承的虚函数表结构:每个基类一个虚表 1.1 单继承与多重继承的虚表差异 1.2 代码示例:多重继承的虚函数覆盖 1.3 虚表结构示意图 二、指针与引用的类型转换:地址调整的底层逻辑 2.1 派生类指针转基类指针的地址偏移 2.2 …

『uniapp』添加桌面长按快捷操作 shortcuts(详细图文注释)

目录 手机环境适配说明安卓效果图代码 iOS(暂未实测,没有水果开发者)总结 欢迎关注 『uniapp』 专栏,持续更新中 欢迎关注 『uniapp』 专栏,持续更新中 手机环境适配说明 个别手机系统可能需要进行特别的权限设置,否则会无法使用 桌面快捷方式: 已知的有…

【LLM vs Agent】从语言模型到智能体,人工智能迈出的关键一步

目录 一、什么是 LLM?语言的天才,思维的起点 ✅ 特点小结: 二、什么是 Agent?智能的执行者,自主的决策者 ✅ 特点小结: 三、LLM 与 Agent 的关系:是工具,更是大脑 四、案例实战…

麦克风和电脑内播放声音实时识别转文字软件FunASR整合包V5下载

我基于FunASR制作的实时语音识别转文字软件当前更新到V5版本。软件可以实时识别麦克风声音和电脑内播放声音转为文字。 FunASR软件介绍 FunASR 是一款基础语音识别工具包和开源 SOTA 预训练模型,支持语音识别、语音活动检测、文本后处理等。 我使用FunASR制作了一…

PyTorch——卷积层(3)

conv_arithmetic/README.md at master vdumoulin/conv_arithmetic GitHub out_channel1 out_channel2