SoftThinking:让模型学会模糊思考,同时提升准确性和推理速度!!

news2025/6/2 22:49:28

摘要:人类的认知通常涉及通过抽象、灵活的概念进行思考,而不是严格依赖离散的语言符号。然而,当前的推理模型受到人类语言边界的限制,只能处理代表语义空间中固定点的离散符号嵌入。这种离散性限制了推理模型的表达能力和上限潜力,常常导致推理路径的探索不完整,因为标准的思维链(Chain-of-Thought,CoT)方法依赖于每一步采样一个符号。在本研究中,我们提出了“软思考”(Soft Thinking)方法,这是一种无需训练的方法,通过在连续的概念空间中生成软的、抽象的概念符号来模拟类似人类的“软”推理。这些概念符号是通过符号嵌入的概率加权混合创建的,形成了一个连续的概念空间,从而实现平滑的过渡和超越传统离散边界的更丰富表示。本质上,每个生成的概念符号都封装了相关离散符号的多种含义,隐式地探索了各种推理路径,从而有效地汇聚到正确答案。在多样化的数学和编程基准测试中的实证评估一致证明了“软思考”的有效性和效率,与标准的思维链方法相比,其通过率(pass@1)准确率最高提高了2.48个百分点,同时符号使用量减少了高达22.4%。定性分析进一步揭示,“软思考”的输出仍然具有高度的可解释性和可读性,突显了“软思考”打破基于离散语言推理固有瓶颈的潜力。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 概念标记与连续概念空间

3.2 推理过程

3.3 Cold Stop机制

四、实验结论

4.1 实验设置

4.2 性能提升

4.3 解释性分析

五、总结


一、背景动机

论文题目:Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

论文地址:https://arxiv.org/pdf/2505.15778

人类的认知过程通常涉及通过抽象、流动的概念进行思考,而非仅仅依赖离散的语言符号。然而,现有的推理模型受限于人类语言的边界,只能处理离散的词嵌入,这限制了模型的表达能力和推理潜力。

链式思考(CoT)是目前一种有效的多步推理技术,通过生成中间推理步骤来逐步解决问题。但其存在两大局限性:一是受限于离散的自然语言符号,无法有效表示和操作抽象概念;二是其单向、序列化的推理方式容易导致模型在高不确定性的任务中走向错误路径,降低性能和效率。

基于人类的思维的灵活性,如我们会在脑中模糊地考虑多种可能性(比如同时想到“苹果、水果、红色”),最后再整理成语言。该论文指出,学会这种“模糊思考”才是突破的关键。

二、核心贡献

1、提出了无需训练的Soft Thinking方法,通过在连续概念空间中生成软的、抽象的概念标记(concept tokens)来模拟人类的“软”推理过程。这些概念标记通过词嵌入的概率加权混合形成,能够跨越传统的离散边界,实现更丰富的语义表示和更有效的推理路径探索。

2、尽管Soft Thinking在推理过程中使用了连续的概念空间,但其输出结果仍然具有高度的可解释性和可读性,体现了该方法能够在不牺牲可解释性的情况下突破离散语言推理的瓶颈。

三、实现方法

3.1 概念标记与连续概念空间

概念标记的定义:在Soft Thinking中,每个中间推理步骤生成的不是一个离散的单词标记(token),而是一个概率分布向量,称为概念标记(concept token)。这个概率分布向量表示模型对下一步所有可能标记的预测概率。

连续概念空间的定义:连续概念空间是由所有词嵌入的凸组合形成的。具体来说,假设 E 是词嵌入矩阵,e(k) 是词汇表中第 k 个词的嵌入向量,那么连续概念空间 C 是所有概率加权的词嵌入混合的集合

3.2 推理过程

1、中间推理步骤:在Soft Thinking中,模型的中间推理步骤不再是离散的标记选择,而是生成一个概念标记 ct。在下一步中,模型将这个概念标记注入到LLM中,通过概率加权的方式计算下一个概念标记的嵌入向量,该方法允许模型在推理过程中保留对多个可能路径的探索。

2、推理结束条件:当某个概念标记的最可能标记是推理结束标记(如 <\think>)时,中间推理过程停止,模型切换到生成最终答案的阶段。最终答案的生成仍然使用标准的离散标记采样。

3.3 Cold Stop机制

  • 动机:由于Soft Thinking在推理过程中使用了模型训练中未见过的概念标记,这使得模型处于分布外(Out-of-Distribution, OOD)状态。这可能导致模型在长推理链或输入分布与训练数据差异较大时出现不稳定或生成崩溃的情况。

  • 实现方式:Cold Stop机制通过监测模型输出分布的熵来动态停止中间推理。具体步骤如下

    • 在每个推理步骤中,计算当前概念标记的熵:

    • 如果熵小于某个阈值 τ,则增加低熵步数计数器;否则重置计数器。

    • 如果低熵步数计数器达到某个阈值 k,则插入推理结束标记 <\think>,终止推理过程。

  • 作用:Cold Stop机制可以避免模型在OOD情况下进行不必要的计算,从而提高推理效率并防止模型崩溃。

四、实验结论

4.1 实验设置

在八个数学和编程基准测试任务上对Soft Thinking进行了评估,涵盖了数学500、AIME 2024、GSM8K、GPQA-Diamond等数学任务,以及HumanEval、MBPP、LiveCodeBench等编程任务。实验使用了QwQ-32B、DeepSeek-R1-DistillQwen-32B和DeepSeek-R1-Distill-Llama-70B等不同架构和规模的LLMs。

4.2 性能提升

  • Soft Thinking在所有评估的数学和编程基准测试中均显著提高了pass@1准确率,同时减少了生成长度
  • 在数学推理任务中,QwQ-32B模型的平均pass@1准确率从83.84%(CoT Thinking)提高到86.32%(Soft Thinking),而生成长度减少了11.6%。

  • 在编程任务中,QwQ-32B的平均Pass@1准确率提升了0.48个百分点,QwQ-32B的生成长度减少了16.1%。

4.3 解释性分析

通过比较标准CoT和Soft Thinking在解决乘法问题时的输出,发现Soft Thinking生成的解释更简洁(96个标记对比157个标记),且具有高可读性和可解释性。

此外,通过可视化Soft Thinking的概率分布,展示了模型在推理过程中如何整合路径探索,从而增强推理的灵活性和深度。

五、总结

文章提出了Soft Thinking方法,通过在连续概念空间中进行推理,显著提升了大模型在数学和编程任务中的推理性能和效率。该方法无需额外训练,能够保持输出的可解释性,并通过实验验证了其在多种基准测试中的有效性。

由于引入了概念标记,使模型具有分布外的特性,故Soft Thinking在面对长推理链或输入分布变化时可能会遇到稳定性问题。未来的研究可以探索通过训练策略使模型适应概念标记,从而提高其在软思考范式下的鲁棒性和泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2394140.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

晨控CK-UR08与欧姆龙PLC配置Ethernet/IP通讯连接操作手册

晨控CK-UR08与欧姆龙PLC配置Ethernet/IP通讯连接操作手册 晨控CK-UR08系列作为晨控智能工业级别RFID读写器,支持大部分工业协议如RS232、RS485、以太网。支持工业协议Modbus RTU、Modbus TCP、Profinet、EtherNet/lP、EtherCat以及自由协议TCP/IP等。 本期主题&#xff1a;围绕…

开源即战力!从科研到商用:Hello Robot 移动操作机器人Stretch 3多模态传感融合(RGB-D/激光/力矩)控制方案

科研领域对机器人技术的需求日益增长&#xff0c;Hello Robot的移动操作机器人Stretch 3凭借其灵活性和性能满足了这一需求。其模块化设计、开源架构和高精度传感控制能力&#xff0c;使科研人员能够顺利开展实验。Stretch 3以其独特的移动操作能力&#xff0c;为科研探索提供了…

元胞自动机(Cellular Automata, CA)

一、什么是元胞自动机&#xff08;Cellular Automata, CA&#xff09; 元胞自动机&#xff08;CA&#xff09; 是一种基于离散时间、离散空间与规则驱动演化的动力系统&#xff0c;由 冯诺依曼&#xff08;John von Neumann&#xff09; 于1940年代首次提出&#xff0c;用于模…

智能手表单元测试报告(Unit Test Report)

📄 智能手表单元测试报告(Unit Test Report) 项目名称:Aurora Watch S1 模块版本:Firmware v1.0.4 测试阶段:模块开发完成后的单元测试 报告编号:AW-S1-UTR-2025-001 测试负责人:赵磊(软件架构师) 报告日期:2025-xx-xx 一、测试目的 通过对智能手表关键功能模块进…

微深节能 码头装卸船机定位与控制系统 格雷母线

微深节能码头装卸船机定位与控制系统&#xff1a;格雷母线技术赋能港口作业智能化升级 在现代化港口散货装卸作业中&#xff0c;装卸船机是连接船舶与陆域运输的核心枢纽设备。传统装卸船机依赖人工操作&#xff0c;存在定位偏差大、动态协同难、安全风险高等痛点。微深节能基于…

Python实现P-PSO优化算法优化循环神经网络LSTM分类模型项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档&#xff09;&#xff0c;如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 随着深度学习技术的迅猛发展&#xff0c;循环神经网络&#xff08;RNN&#xff09;及其变体LSTM&#xff08;Long S…

Scratch节日 | 龙舟比赛 | 端午节

端午节快乐&#xff01; 这款专为孩子们打造的Scratch游戏——《龙舟比赛》&#xff0c;让你在掌控龙舟的竞速中&#xff0c;沉浸式体验中华传统节日的魅力&#xff01; &#x1f3ae; 游戏亮点 节日氛围浓厚&#xff1a;化身龙舟选手&#xff0c;在波涛汹涌的河流中展开刺激竞…

electron开发百度桌面应用demo及如何打包应用

1.开发入口文件main.js 1-1 加载百度URL const { app, BrowserWindow, nativeImage } require(electron) const path require(node:path)const createWindow () > {const win new BrowserWindow({width: 800,height: 600,})//加载百度URLwin.loadURL(https://www.baid…

关于用Cloudflare的Zero Trust实现绕过备案访问国内站点说明

cloudflare 是一个可免费的CDN&#xff0c;CDN&#xff08;Content Delivery Network&#xff0c;内容分发网络&#xff09;加速国内网站&#xff0c;通常是已备案的。Zero Trust类似FRP&#xff0c;可以将请求转发到目标服务器。在使用Zero Trust绕过备案访问国内网站需要&…

方正字库助力华为,赋能鸿蒙电脑打造全场景字体解决方案

2025年5月19日&#xff0c;搭载华为鸿蒙操作系统的鸿蒙电脑&#xff0c;面向用户推出集AI智能、互联流畅、安全保障和精致体验于一体的全新办公系统。作为鸿蒙生态核心字体服务商&#xff0c;方正字库为此次提供了全面的系统字体支持&#xff0c;涵盖中文、西文及符号三大类字库…

STM32 串口通信①:USART 全面理解 + 代码详解

一 前言 本篇文章并不会系统的从零开始讲起&#xff0c;适合大家对USART有一定的学习&#xff0c;再看本篇文章会有一定的收获&#xff0c;祝大家在本文中&#xff0c;吸收到新的知识。 二 通信方式 1&#xff09;按数据传输的方式分&#xff08;这就是“串行 vs 并行”&…

【Java Web】速通CSS

参考笔记:JavaWeb 速通CSS_java css-CSDN博客 目录 一、CSS入门 1. 基本介绍 2. 作用 二、CSS的3种引入方式 1. 行内式 1.1 示例代码 1.2 存在问题 2. 写在head标签的style子标签中 2.1 示例代码 2.2 存在问题 3.以外部文件的形式引入(开发中推荐使用)⭐⭐⭐ 3.1 说明 3…

NHANES指标推荐:ALI

文章题目&#xff1a;A cross-sectional study examining the relationship between the advanced lung cancer inflammation index and prostate cancer 中文标题&#xff1a;一项检查晚期肺癌炎症指数与前列腺癌之间关系的横断面研究 发表杂志&#xff1a;Journal of Health…

UE5 Mat HLSL - Load

特性Load()Sample()输入类型整数索引&#xff08;int2/int3&#xff09;浮点 UV 采样器状态&#xff08;SamplerState&#xff09;数据获取精确读取指定位置的原始数据基于 UV 插值和过滤后的数据典型用途精确计算、非过滤访问&#xff08;如物理模拟&#xff09;纹理贴图渲染…

【Unity笔记】Unity WASD+QE 控制角色移动与转向(含 Shift 加速)实现教程

摘要&#xff1a; 在 Unity 游戏开发中&#xff0c;键盘控制角色的移动与转向是基础功能之一。本文详细讲解如何使用 C# 实现基于 WASD 移动、QE 转向 与 Shift 加速奔跑 的角色控制器&#xff0c;适用于第一人称、第三人称、自由漫游等场景。通过直观的 Transform 控制方法与可…

HTML5 列表、表格与媒体元素、页面结构分析

1. 列表 无序列表 有序列表 定义列表 列表对比 2. 表格 跨列 跨行 跨行和跨列 3. HTML5的媒体元素 视频元素 注意&#xff1a;autoplay现在很多浏览器不支持了&#xff01; 音频元素 4. 页面结构分析 5. 总结

换宽带ip地址会变吗?同一个宽带如何切换ip地址

在当今互联网时代&#xff0c;IP地址作为网络设备的"身份证"&#xff0c;其重要性不言而喻。许多用户在使用宽带时都会遇到这样的疑问&#xff1a;换宽带IP地址会变吗&#xff1f;同一个宽带如何切换IP地址&#xff1f;本文将深入探讨这一问题&#xff0c;帮助读者全…

第100+41步 ChatGPT学习:R语言实现误判病例分析

本期是《第33步 机器学习分类实战&#xff1a;误判病例分析》的R版本。 尝试使用Deepseek-R1来试试写代码&#xff0c;效果还不错。 下面上R语言代码&#xff0c;以Xgboost为例&#xff1a; # 加载必要的库 library(caret) library(pROC) library(ggplot2) library(xgboost)…

贝锐蒲公英工业路由器R300A海外版:支持多国4G频段,全球组网

为更好地满足全球部署和企业出海项目的多样化需求&#xff0c;贝锐蒲公英异地组网工业路由器R300A海外版全新上市&#xff0c;并已正式上架速卖通&#xff01;无论是跨国分支机构协同办公&#xff0c;还是海外工厂设备远程运维&#xff0c;R300A海外版都能为企业提供灵活、高性…

[特殊字符] 超强 Web React版 PDF 阅读器!支持分页、缩放、旋转、全屏、懒加载、缩略图!

在现代 Web 项目中&#xff0c;PDF 浏览是一个常见需求&#xff1a;从政务公文到合同协议&#xff0c;PDF 文件无处不在。但很多方案要么体验不佳&#xff0c;要么集成复杂。今天&#xff0c;我给大家带来一个开箱即用、功能全面的 PDF 预览组件 —— [PDFView](https://www.np…