迎接范式革命:最新、最全的大模型Latent Space综述,NUS、复旦、清华等联合出品
从 2024 年底的关于潜在空间的早期探索再到 2025 年底和 2026 年初的相关研究爆发潜空间范式正在彻底重塑大模型 (LLMs, VLMs, VLAs 等延伸模型) 的底层设计逻辑。当大部分大模型还在依靠显式空间 (Explicit Space) 或者说语言空间 (Verbal Space) 完成时一场底层的范式革命已经悄然发生大模型的核心计算和操作正在从人类可读的离散符号空间转向机器原生的连续潜在空间 (Latent Space) 。这种转变是由显式空间计算的结构性局限性驱动的包括语言冗余、离散化瓶颈、序列效率低下和语义损失等问题。越来越多的研究指出许多关键的内部过程在 Latent Space 中执行比在人类可读的词元中执行更为自然且有效。然而现有文献在机制、能力等方面仍然分散缺乏对潜在空间的定义、分类和研究的统一视角这阻碍了该领域的进一步发展和进步。基于此来自新加坡国立大学、复旦大学、清华大学、浙江大学等国内外顶级学术机构系统性地梳理了大模型潜空间研究的重磅综述《The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook》尝试通过 “基础 — 演进 — 机制 — 能力 — 展望” 五大核心视角构建起清晰的研究框架为社区和后续的研究者提供了潜在空间的全景视角。论文标题The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook论文地址: https://arxiv.org/pdf/2604.02029Github 地址: https://github.com/YU-deep/Awesome-Latent-Space综述首先指出当前针对潜在空间的综述研究仍存在明显局限一方面现有综述要么仅聚焦潜在推理 (Latent Reasoning) 这一细分分支展开探讨要么仅将潜在空间作为附属小节简略阐述未形成系统性的研究梳理另一方面多数综述对潜在空间的技术实现仅开展碎片化、不完整的分类其分类框架已难以适配当前日益丰富的技术范式与多元化的应用场景。基于此该综述首先提出了五大核心问题:Foundation: What is Latent Space? (基础) ———— 什么是潜在空间Evolution: How Did Latent Space Develop? (演进) ———— 对潜在空间的研究是如何发展Mechanism: How Does Latent Space Work? (机制) ———— 潜在空间是如何作用的Ability: What Does Latent Space Enable? (能力) ———— 潜在空间能实现什么能力Outlook: What is Next? (展望) ———— 潜在空间的未来可能是什么样的基础什么是大模型的潜在空间概念:大模型的潜在空间是模型内部通过学习形成的连续非离散的表征空间在其中编码、处理文字背后的语义、语法、上下文关联等没有直接用文字 (token) 显式表达的隐含信息这个空间还能拓展为统一的空间用来处理多模态信息。与显式空间的区别:综述从两个角度进行对比四大表征属性 (Representational Properties) :可读性 (human-readable v.s. machine-native): 显式空间是人类能直接看懂的文字、分词符号潜在空间是模型原生的高维向量人类无法直接理解但包含更丰富表征。存在形式 (discrete sybolic v.s. Continuous flexible): 显式空间是离散、固定的语言符号有大量语法、衔接类冗余信息潜在空间是连续、灵活的向量只保留核心语义剔除了语言冗余。效率 (inefficient v.s. efficient): 显式空间需要逐词生成、反复转码计算冗余高、速度慢潜在空间直接在内部做向量运算无额外转换开销效率更高。语义保留程度 (semantically lossy v.s. high fidelity): 显式空间把内部信息转成文字时会丢失细粒度语义、模糊细节潜在空间能完整保留高保真信息还能承载文字无法表达的内容。四大功能能力 (Functional Capabilities) :可操作性 (Operability): 显式空间非连续不可微分依赖词元级计算潜在空间连续可微分支持向量运算、语义精准操控等复杂操作。表达能力 (Expressiveness): 显式空间仅能表达文字可描述的内容潜在空间可处理高维 / 非语言信息不受词汇语法限制表达更全面。可扩展性 (Scalability): 显式空间受文字序列限制扩展性差潜在空间依托向量特性易适配长推理、多交互并拓展操作。泛化能力 (Generalization): 显式空间受语言形式束缚泛化能力较弱潜在空间捕捉抽象语义规律跨领域泛化性强。演进对潜在空间的研究是如何发展大模型潜在空间的研究发展随大语言模型能力提升分为四个递进阶段整体从 “验证想法” 逐步走向 “成熟落地、全面爆发”:原型阶段 (2025 年 3 月前): 首次验证推理不必依赖自然语言可改用模型内部连续向量完成。诞生了初代潜在推理框架证明潜在空间能压缩冗余推理信息但无系统理论、无统一评估标准仅停留在概念验证。形成阶段 (2025 年 4-7 月): 搭建理论根基用数学证明潜在空间的表达与计算优势优化技术方案同时开始初步试水多模态领域包括视觉、机器人具身等多模态方向但仍以文本推理为主应用场景单一、跨领域整合能力弱。拓展阶段 (2025 年 8-11 月): 从纯文本全面拓展到多模态、多领域视觉潜在推理、多智能体潜在通信、机器人行动规划全面铺开技术走向成熟随着研究的多样化不同方向、领域、范式和应用不断拓展。爆发阶段 (2025 年 12 月至今): 开始全面爆发出现潜在模型专属模型架构优化策略等方法文本、视觉、行动、多智能体实现统一融合潜在空间成为核心计算范式各种潜在空间的技术范式和应用场景开始爆发。机制潜在空间是如何作用的潜空间的机制 (Mechanism) 是大模型将潜空间从理论概念落地为实际功能的底层技术框架它围绕架构、表征、计算、优化四个相互协同的核心维度完整拆解了潜空间在大模型中的全流程运作逻辑分别解决潜空间如何嵌入模型结构、以何种形式承载信息、怎样开展信息运算、如何通过调优提升效果四大关键问题是连接潜空间基础定义与实际能力的核心技术纽带也是大模型实现潜空间高效运作、发挥各类进阶能力的底层技术支撑。架构 (Architecture):架构是潜空间在大模型中的结构集成方案核心解决 “潜空间如何嵌入模型” 的问题决定了潜计算的底层载体。它不改变模型核心逻辑而是通过三种方式将潜空间融入结构直接改造模型主干实现原生潜计算、加装插件模块实现潜功能扩展、借助外部辅助模型提供潜信号支持最终让模型具备原生的潜空间运算基础是潜空间落地的结构根基。主干内置 (Backbone) : 直接改造模型主干用参数共享、循环迭代、增强结构让模型原生支持潜空间计算插件组件 (Component) : 不改动主干加装生成、投影、对齐、控制、存储插件模块实现潜空间功能辅助模型 (Auxiliary Model) : 用外部独立模型给主模型提供监督信号 / 中间特征辅助潜空间生成。表征 (Representation):表征是潜空间的信息承载形式核心解决 “潜空间用何种载体处理信息” 的问题定义了潜信息的表达范式。它依托模型内部激活、外部模块、可学习模块或混合方式生成潜载体将离散的文本 token 转化为连续高维向量既能复用模型原生隐状态、也能自定义可学习潜表示是潜空间实现高保真、高效率信息表达的核心载体。内部表征 (Internal) : 直接利用基础模型前向过程中产生的内部激活包括隐状态、词嵌入、KV 缓存等无需引入额外参数外部表征 (External) : 由预训练的外部模型生成潜信息再注入基础模型过程中外部模型保持冻结可学习表征 (Learnable) : 由嵌入的可训练模块 (如可学习 token、轻量适配器等) 生成潜信息与基础模型端到端优化混合表征 (Hybrid) : 先由可学习模块构造潜信息再作为外部信号注入基础模型兼顾灵活与稳定。计算 (Computation):计算是潜空间的信息处理逻辑核心解决 “潜空间如何运算和处理信息” 的问题决定了潜计算的效率与能力上限。它通过压缩、扩展、自适应、交叉四种模式处理信息压缩冗余信息降低算力、扩展算力提升表达、动态分配算力平衡效率、交错信息融合优势让潜空间摆脱离散 token 的限制实现灵活、高效、高带宽的内部运算。压缩计算 (Compressed) : 压缩推理轨迹、缓存、多模态特征减少信息保留核心语义扩展计算 (Expanded) : 通过深度循环、宽度并行、结构拓展增加潜空间算力提升表达能力自适应计算 (Adaptive) : 按输入难度动态分配算力和计算进程平衡效率和性能交错计算 (Interleaved) : 让显式 token 与潜信息交错、多模态交错、任务模块交错运算混合发挥优势。优化 (Optimization):优化是潜空间的效果调优手段核心解决 “如何优化潜空间运算” 的问题覆盖模型全生命周期。它在预训练阶段让模型习得潜计算能力、后训练阶段精调潜空间适配任务、推理阶段实时修正潜状态通过监督学习、蒸馏、强化学习等方式规范潜空间的几何结构与运算逻辑持续提升潜空间的可靠性、可控性与泛化性。预训练阶段 (Pre-training) : 模型随机初始化从头训用自回归、辅助监督、强化学习让模型天生具备潜计算能力后训练阶段 (Post-training) : 在预训练模型基础上用显式输出监督、隐式蒸馏监督、强化学习精调潜空间效果推理阶段 (Inference) : 在推理阶段直接缩放、调优、引导潜状态实时优化潜在空间效果。能力潜在空间能实现什么能力潜在空间作为大模型机器原生的连续表征载体突破了传统离散文本 token 的表达局限与计算瓶颈不再局限于单一的文本推理而是从能力 (Ability) 上全面解锁了覆盖推理、规划、建模、感知、记忆、协作、具身的七大核心智能能力让模型在逻辑思考、多步决策、多模态理解、知识存储、智能体协同与实体交互等全场景中实现效率、表达力与泛化性的全方位升级。推理能力 (Reasoning):潜在空间推理是指大型模型能够通过内部连续的表征而非通过逐个词元的显式语言表达来进行逻辑演绎、关系计算和结论生成。从显式 CoT 推理到潜在推理的转变代表着一种根本性的范式转变模型不再需要用自然语言表达每一个中间步骤而是学习在一个连续的高维潜在流形中思考。这种范式在推理的能力方面具有显著优势该综述将其归纳为六种能力无需完全语言表达的隐式推理 (Implicit Inference)、将长链压缩成紧凑状态的紧凑轨迹 (Compact Trace)、以潜在形式维持和修正思维的连续迭代 (Continuous Refinement)、跨多个候选路径的分支路径 (Branching Path)以及超越纯文本设置的模态泛化 (Modal Generalization)。规划能力 (Planning):规划关注的是在解空间中寻找最优轨迹其中潜在流形的连续性和可微性允许基于梯度的策略优化和迭代轨迹改进。与侧重于在给定上下文中进行逻辑推理的推理不同规划强调计算的前瞻性组织确定资源的分配位置、探索解空间的方式以及何时终止搜索。基于潜在空间的方法从四个方面优化了潜在规划对内部解路径的可控探索 (Controllable Exploration)、在潜在流形中导航的高效搜索 (Efficient Search)、根据难度匹配计算资源的自适应算力 (Adaptive Budget)以及在下游交互式任务中的顺序决策 (Sequential Decision)。建模能力 (Modeling):建模涵盖了对大型语言模型中潜在表征进行刻画、检查和塑造的能力。推理和规划关注的是模型在潜在空间中计算的内容而建模则侧重于潜在表征如何帮助我们理解和控制计算本身。该综述将这一维度构建为四种能力的提升用于编码复杂计算的丰富表达 (Rich Expression)、使内部状态可分析的自我检视 (Self Inspection)、针对风险或不稳定行为的鲁棒控制 (Robust Control)以及通过潜在递归扩展容量的可扩展计算 (Scalable Computation)。感知能力 (Perception):潜在空间感知旨在解决视觉语言模型的理解、表示和处理连续、高保真潜在空间中的视觉信息的根本挑战。当前的视觉语言模型仍然面临一个关键瓶颈将丰富的视觉内容转换为离散的文本标记不可避免地会丢失空间结构、精细细节和关系几何信息。潜在感知通过保留离散标记化必然会破坏的密集空间结构信息来克服这一限制使模型能够像人类感知一样以丰富而微妙的方式对视觉内容进行推理。潜在空间赋予了感知三个逐渐深入的高级能力基于内部视觉表征的多模态推理 (Multimodal Inference)、用于生成式操作和三维理解的启发式想象 (Heuristic Imagination)以及通过表征层面的干预来提高输出保真度的忠实定位 (Faithful Grounding)。记忆能力 (Memory):记忆已成为大模型的必要补充无状态架构需要外部机制来跨推理步骤保留知识。然而基于标记的记忆也存在自身的瓶颈将累积的上下文表示为离散序列会增加提示长度降低检索保真度并阻碍自适应记忆巩固所需的基于梯度的优化。潜在记忆通过将持久知识编码为连续向量来解决这一问题从而实现紧凑的跨上下文保留并具有更高的保真度和适应性。在记忆层面潜在空间的三种扩展能力有力地支撑了其成为记忆的媒介用于缓存干预的工作记忆留存 (Working Retention)、用于自我演化知识存储的持久记忆演化 (Persistent Mind)以及跨视觉和具身模态的多模态记忆调取 (Multimodal Recall)。协作能力 (Collaboration):传统上多智能体系统中的集体智能是通过自然语言来传递的。然而语言本身就是一个固有的瓶颈将内部表征压缩成离散的词元会丢失语义细微差别增加通信延迟并破坏联合优化所需的梯度路径。潜在协作通过使智能体能够交换连续表征来解决这些限制从而保留更丰富的内部状态并支持更具表现力的集体协作形式。潜在空间协作组织成三个递增的能力用于通过潜在通道实现智能体间的无损状态传输的语义保真 (Semantic Fidelity)用于识别和演化跨智能体的共享思维结构的共享认知 (Shared Cognition)以及用于将协作扩展到不同的模型族和模态的异构互通 (Heterogeneous Interoperability)。具身能力 (Embodiment):具身智能体面临着一种数据瓶颈这是任何纯粹语言领域都无法比拟的物理多样性的每一次增加例如新的硬件形态、视角和任务环境都会使现有的标记演示失效并迫使用户进行平台特定的重新训练而这种模式无法直接迁移。潜在表征可以同时消除这些失效模式使行为语义能够从未标记的视频中涌现并使空间先验信息能够直接提炼成策略骨架而无需额外的工具或重新标注。潜在空间在具身领域的潜力可以归纳为五种递进的能力用于从无标签视频中导出可迁移的动作表示无需具身化特定标签的无监督落地 (Unsupervised Grounding)用于将多步骤规划内化为连续的潜在计算而无需显式生成思维链的内隐思考 (Implicit Thinking)用于模拟未来状态以生成密集的训练信号并指导实时决策的预测前瞻 (Predictive Foresight)用于从 2D 观察重建 3D/4D 几何结构的空间认知 (Spatial Cognition)以及用于通过共享的与身体无关的基质来连接异构硬件形态的泛化迁移 (Generalized Transfer)。展望潜在空间的未来可能是什么样的核心定位潜空间是大模型的原生核心计算空间并非附属功能已从文本推理拓展到多模态、记忆、协作、具身智能等全场景是下一代通用 AI 的核心范式。现存挑战潜空间存在三大短板难评估中间计算过程不可见无法验证推理合理性、难控制无法精准操控内部连续表征、难解释高维向量无直观语义模型行为不可追溯。未来方向:搭建统一理论明确潜空间计算原理、与显式空间的协作规则建立标准评估体系深耕多模态打造文本、视觉、动作统一的原生潜计算空间落地下游任务用潜空间支撑推理、规划、机器人控制等下游场景实现可控治理让潜空间可观测、可管控解决可信性与安全性问题。结语综上该综述系统性填补了大模型潜在空间研究的碎片化空白以 “基础 — 演进 — 机制 — 能力 — 展望” 五大视角构建完整研究框架清晰剖析了潜空间从概念验证到全面爆发的演进路径与底层逻辑。作为大模型从显式符号向机器原生连续表征跨越的核心范式潜空间已解锁多维度智能能力虽仍面临挑战但仍然具有极大潜力该综述为后续研究奠定坚实基础。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2519332.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!