思维链提示：激发大语言模型推理能力的突破性方法

news2025/6/4 18:01:44

论文出处： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者： Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou
机构： Google Research, Brain Team
发表： 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
arXiv： 2201.11903v6 [cs.CL]

研究背景

大语言模型虽然在许多任务上表现出色，但在需要复杂推理的任务上仍然存在困难，特别是算术、常识和符号推理。传统的提示方法往往只是简单的输入-输出对，无法有效激发模型的推理能力。

核心创新：思维链提示

什么是思维链提示？

思维链提示（Chain-of-Thought Prompting）是一种新的提示方法，通过在少样本示例中提供一系列中间推理步骤，教会大语言模型进行逐步推理。

传统提示 vs 思维链提示对比：

方法类型	输入格式	输出格式	示例
传统提示	问题 → 答案	直接答案	Q: Roger有5个网球，买了2罐，每罐3个，现在有多少？ A: 答案是11
思维链提示	问题 → 推理过程 → 答案	逐步推理 + 答案	Q: Roger有5个网球，买了2罐，每罐3个，现在有多少？ A: Roger开始有5个球。2罐网球每罐3个就是6个球。5+6=11。答案是11

思维链提示的四大优势

分解复杂问题：将多步问题拆解为中间步骤，为复杂推理分配更多计算资源
提供可解释性：展示模型推理过程，便于调试和理解
广泛适用性：适用于任何人类可以通过语言解决的推理任务
零额外训练：仅需要在提示中提供示例，无需模型微调

实验验证

算术推理实验

研究团队在五个数学应用题数据集上进行了测试，包括GSM8K、SVAMP、ASDiv、AQuA和MAWPS。

主要发现：

规模涌现性：思维链提示只在约100B参数以上的模型中显现效果
复杂问题效果更佳：越复杂的问题，性能提升越显著
超越微调模型：在某些任务上甚至超过了专门微调的模型

GSM8K数学应用题性能对比：

模型	标准提示	思维链提示	性能提升
GPT-3 175B	15.6%	46.9%	+31.3%
PaLM 540B	17.9%	56.9%	+39.0%
Codex	19.7%	63.1%	+43.4%

不同模型规模的表现（GSM8K）：

模型系列	参数量	标准提示	思维链提示	提升幅度
GPT-3	350M	2.2%	0.5%	-1.7%
GPT-3	1.3B	2.4%	0.5%	-1.9%
GPT-3	6.7B	4.0%	2.4%	-1.6%
GPT-3	175B	15.6%	46.9%	+31.3%
PaLM	8B	4.9%	4.1%	-0.8%
PaLM	62B	9.6%	29.9%	+20.3%
PaLM	540B	17.9%	56.9%	+39.0%

常识推理实验

在五个常识推理数据集上的测试显示，思维链提示同样有效。

常识推理任务性能（PaLM 540B）：

任务	标准提示	思维链提示	性能提升
CSQA	78.1%	79.9%	+1.8%
StrategyQA	68.6%	77.8%	+9.2%
Date Understanding	49.0%	65.3%	+16.3%
Sports Understanding	80.5%	95.4%	+14.9%
SayCan	80.8%	91.7%	+10.9%

符号推理实验

通过设计的两个符号推理任务验证了思维链提示的泛化能力。

符号推理任务结果（PaLM 540B）：

任务	测试类型	标准提示	思维链提示	性能提升
末字母连接	域内（2词）	7.6%	99.4%	+91.8%
末字母连接	域外（3词）	0.2%	94.8%	+94.6%
末字母连接	域外（4词）	0.0%	63.0%	+63.0%
硬币翻转	域内（2次）	98.1%	100.0%	+1.9%
硬币翻转	域外（3次）	49.3%	98.6%	+49.3%
硬币翻转	域外（4次）	54.8%	90.2%	+35.4%

消融实验分析

为了验证思维链的有效性，研究团队进行了三组对照实验：

消融实验结果（LaMDA 137B在GSM8K上）：

提示方法	性能	说明
标准提示	6.5%	基线
仅方程式	5.4%	只输出数学方程式
仅可变计算	6.4%	只输出等长度的点序列
答案后推理	6.1%	推理过程放在答案后
思维链提示	14.3%	完整的逐步推理

结果表明，思维链的成功不仅仅因为增加了计算量或方程式，而是因为逐步的自然语言推理过程。

稳健性验证

不同标注者的稳健性

研究团队让三个不同的标注者编写思维链提示，验证方法的稳健性。

不同标注者结果（LaMDA 137B）：

数据集	标注者A	标注者B	标注者C	标准提示基线
GSM8K	14.3%	15.5%	17.6%	6.5%
SVAMP	36.7%	35.2%	37.5%	29.5%
ASDiv	46.6%	46.5%	48.7%	40.1%
MAWPS	57.9%	58.2%	60.1%	43.2%

不同示例数量的影响

示例数量对性能的影响（LaMDA 137B, GSM8K）：

示例数量	标准提示	思维链提示	性能差距
1个	4.2%	8.9%	+4.7%
2个	5.1%	11.2%	+6.1%
4个	5.8%	12.8%	+7.0%
6个	6.2%	13.5%	+7.3%
8个	6.5%	14.3%	+7.8%

错误分析

研究团队对LaMDA 137B在GSM8K上的错误进行了详细分析：

正确答案的推理质量（50个样本）：

完全正确：48个（96%）
巧合正确：1个（2%）
轻微瑕疵但逻辑正确：1个（2%）

错误答案的错误类型（50个样本）：

错误类型	占比	说明
计算错误	8%	逻辑正确但计算出错
符号映射错误	16%	数字符号使用错误
缺少一步	22%	推理链缺少关键步骤
语义理解错误	54%	对问题理解有误