杨立昆的「秘密厨房」:JEPA 到底在煮什么?——从 LeJEPA 到 EchoJEPA 的全面解读
基于 bycloud 视频解读结合 LeJEPA、EchoJEPA、V-JEPA 2 等最新论文深度研读视频原链接What Is Yann LeCun Cooking? JEPA Explained Simply一个 AI 界的异端2025 年 9 月纽约大学的一场研讨会上Meta 首席 AI 科学家杨立昆Yann LeCun说了一句让整个 AI 圈炸锅的话“自回归大语言模型注定失败。”说这话的人不是什么无名之辈——他是深度学习的三巨头之一2018 年图灵奖得主卷积神经网络的发明者。而他口中的替代方案就是他这几年一直在推的JEPAJoint-Embedding Predictive Architecture联合嵌入预测架构。但问题是每次杨立昆讲 JEPA底下的人都在挠头。这个概念涉及隐空间、表征坍塌、等方高斯分布……一堆抽象术语让大多数人听完还是一头雾水。今天我们用最通俗的方式把 JEPA 的核心逻辑、最新进展和真实效果讲清楚。先忘掉你认识的所有 AI 训练方式要理解 JEPA先得理解它反对什么。目前主流的 AI 训练方式有两种第一种自回归预测LLM 的做法给你一段文字的前半部分让你预测下一个字。GPT 就是这么训练的。它的特点是逐字生成精确到像素/字符级别。问题在哪想象你在看一部电影有人每隔一秒就暂停问你下一帧画面长什么样。你当然猜不准——因为光影变化、镜头抖动、风吹草动这些细节根本无法精确预测。但如果你被问的是接下来会发生什么故事你就能回答得很好。第二种像素级重建MAE、VAE 的做法给你一张图片的一部分让你把缺失的像素补全。这就像给你一张被撕掉一角的拼图让你把缺的那块画出来——精确到每个像素的颜色。问题在哪太关注细节忽略了语义。一张猫的照片猫的毛发方向、光线角度这些细节对理解猫毫无帮助但像素级重建会强迫模型去学这些无关紧要的东西。JEPA 的做法完全不同它不预测像素也不预测 token而是预测抽象描述。“视图”JEPA 的基本单位JEPA 的核心概念是视图View。什么是视图就是对同一个事物的不同看法。比如一张猫的照片裁剪后的版本是一个视图模糊后的版本是一个视图调整亮度后的版本是一个视图遮住一部分后的版本是一个视图这些视图虽然看起来不同但语义是相同的——它们都是猫。JEPA 的训练逻辑是给定一个视图上下文预测另一个视图在隐空间中的表征。注意关键词隐空间Latent Space。JEPA 不是让你预测被遮住的那块区域长什么样那是像素级重建而是让你预测那块区域的抽象特征是什么。打个比方如果有人给你看了一幅画的左半边让你猜右半边。像素级重建要求你画出每一笔的颜色和位置而 JEPA 只要求你说出右半边应该是一只鸟在飞——它关注的是语义不是细节。这就是 JEPA 的核心优势过滤无关噪声聚焦语义信息。JEPA 的三大组件JEPA 的训练涉及三个核心模块1. 上下文编码器Context Encoder把你看到的部分比如视频的前半段编码成一个隐空间向量。这个向量是对你看到的内容的抽象描述。2. 目标编码器Target Encoder把你要预测的部分比如视频的后半段也编码成一个隐空间向量。这个向量是正确答案的抽象描述。3. 预测器Predictor给定上下文编码器的输出预测目标编码器的输出。训练目标就是让预测器的预测尽可能接近目标编码器的实际输出。关键细节目标编码器的梯度是截断的stop-gradient。这意味着预测器在学习如何预测但目标编码器在学习如何编码时不受预测器的影响。这就像考试学生预测器要猜老师的答案目标编码器但老师不会因为学生的猜测而改变自己的评分标准。三大应用场景场景一表征提取I-JEPA这是最基础的应用。用 JEPA 训练一个视觉编码器让它学会从图像中提取有意义的特征。训练完成后这个编码器可以直接用于下游任务分类、检测等不需要从头训练。Meta 的 I-JEPA 在 ImageNet 上的线性探测准确率达到了当时自监督方法的 SOTA。场景二世界建模V-JEPA / V-JEPA 2这是杨立昆最看重的方向。V-JEPA 用视频数据训练让模型学会预测视频中被遮住的时空区域在隐空间中的表征。本质上它是在学习一个世界模型——理解物理世界的运作规律。2025 年推出的V-JEPA 2更是实现了突破它不仅在互联网规模的视频数据上进行了自监督预训练还结合了少量机器人交互数据实现了零样本机器人控制。也就是说一个只看过网上的视频、从未操作过机器人的模型可以直接控制机器人完成新任务。这是 JEPA 路线最有力的证据理解世界 ≠ 生成文本。场景三机器人隐空间规划传统的机器人规划在像素空间或动作空间中进行计算成本极高。JEPA 可以在隐空间中进行规划——先在抽象世界中模拟不同动作的后果选择最优方案再执行。这就像人类下棋高手不会在脑中精确模拟每个棋子的移动轨迹而是在一个抽象的策略空间中思考。JEPA 让 AI 也能做到这一点。最大的敌人表征坍塌JEPA 的训练有一个致命的陷阱表征坍塌Representation Collapse。什么是表征坍塌想象你是一个学生考试题目是根据上半句猜下半句。如果你发现一个万能答案——不管上半句是什么你都回答我不知道——虽然这个答案每次都错得不多但你什么都没学到。在 JEPA 中这表现为编码器把所有输入都映射到几乎相同的向量。如果所有图像的隐空间表征都一样预测器只需要输出一个固定向量就能预测任何目标——任务变得毫无意义。有两种坍塌完全坍塌所有输入映射到同一个点维度坍塌所有输入映射到一个低维子空间为了对抗坍塌研究者们发明了各种补丁补丁一EMA指数移动平均用两个编码器一个在线更新一个通过 EMA 缓慢更新。目标编码器用 EMA 版本这样即使预测器找到了作弊的方法目标编码器也不会立刻配合。这是 SimSiam、BYOL 等方法的核心技巧。补丁二样本对比法SimCLR 为代表同时处理多个样本让不同样本的表征尽量远离相同样本的不同视图尽量接近。这需要较大的 batch size通常 4096计算成本高。补丁三维度对比法Barlow Twins、VICReg 为代表不比较不同样本而是约束隐空间中每个维度的统计特性——让方差足够大、让不同维度之间尽量不相关。VICReg 是目前最流行的方案之一。这些方法各有优劣但都有一个共同问题它们都是启发式的heuristic——我们知道它们有效但不知道为什么有效也不知道它们是否最优。LeJEPA用数学终结补丁时代2025 年底LeJEPALatent-Euclidean JEPA横空出世来自 Meta FAIR 的 Randall Balestriero 和杨立昆本人。LeJEPA 的核心贡献不是又发明了一个新补丁而是从数学上证明了最优解是什么。核心定理隐空间表征应该服从各向同性高斯分布LeJEPA 证明了如果要让模型在训练后的各种下游任务上表现最好编码器输出的隐空间表征应该服从各向同性高斯分布Isotropic Gaussian——即均值向量为零、协方差矩阵为单位矩阵的多维正态分布。这个结论听起来很抽象但直觉很清晰想象你在整理一个图书馆。最好的整理方式是让每本书在各个维度上的信息都均匀分布——不能所有书都挤在一个角落维度坍塌也不能所有书都叠在一起完全坍塌。各向同性高斯分布就是这种均匀且分散的理想状态。SIGReg如何高效地达到理想分布知道了目标分布怎么让编码器的输出逼近它LeJEPA 提出了SIGRegSketched Isotropic Gaussian Regularization一个精妙的正则化方法随机选择一组方向向量把隐空间表征投影到这些方向上检查投影后的分布是否接近标准正态分布如果不是调整编码器使其接近这就像质检员从不同角度检查产品——不需要检查所有细节只需要从足够多的角度抽查就能确保产品质量。SIGReg 的优势线性复杂度计算和内存开销与维度成线性关系理论保证有严格的统计检验理论支撑无需启发式不需要 stop-gradient、teacher-student、超参数调度器实验结果简洁即力量LeJEPA 的结果令人印象深刻ImageNet-1k 线性探测ViT-H/14 达到79%与需要大量启发式技巧的方法相当训练稳定性即使在18 亿参数的 ViT-g上也能稳定训练不需要任何特殊技巧跨架构通用在 ResNet、ViT、ConvNeXt、MaxViT、Swin Transformer 等 60 架构上都能工作领域迁移在 Galaxy10天文图像数据集上LeJEPA 的域内预训练全面超越DINOv2/v3 的迁移学习——即使后者是在数十亿自然图像上训练的前沿模型最令人惊讶的是LeJEPA 的核心代码只有约 50 行。没有 stop-gradient没有 EMA没有 teacher-student只有一个超参数。这印证了一个朴素的道理当你真正理解了问题解决方案往往出奇地简单。EchoJEPAJEPA 在医学影像的惊艳落地如果说 LeJEPA 证明了 JEPA 的理论基础那么 EchoJEPA 则证明了它的实用价值。EchoJEPAICML 2026将 JEPA 应用于超声心动图——全球每年约 3000 万次检查的心脏超声影像。超声影像有一个独特的挑战散斑噪声Speckle Noise。这些随机出现的噪点与心脏解剖结构毫无关系但传统方法会强迫模型去学习这些噪声模式。EchoJEPA 的核心优势正好对症下药JEPA 在隐空间中预测天然过滤了像素级的噪声。结果令人惊叹零样本泛化到儿科患者EchoJEPA 在成人数据上预训练后直接应用于儿科患者性能超越了在儿科数据上完全微调的基线模型对声学退化的鲁棒性在模拟各种超声伪影深度衰减、声影、散斑的测试中EchoJEPA 的性能下降仅17%而竞争对手高达40%数据效率仅用 1% 的标注数据就能达到竞争性能这告诉我们当你不强迫模型去预测无关细节时它反而学到了更本质的东西。为什么 JEPA 不适用于大语言模型视频里提到了一个重要观点JEPA 不适合替代 LLM。为什么核心原因是模态差异视觉/视频信息是连续的、冗余的。一张猫的照片有百万像素但猫这个概念只需要几个维度就能表达。JEPA 的隐空间预测天然适合这种高冗余 → 低维语义的压缩。语言信息是离散的、密集的。每个词都承载着精确的语义“猫和狗之间没有中间状态”。在语言中预测下一个 token 本身就是在做语义预测——没有像素噪声需要过滤。所以杨立昆说LLM 注定失败更准确的理解是自回归 LLM 不是通向 AGI 的唯一路径也不是最优路径。对于需要理解物理世界、进行规划和推理的任务JEPA 式的世界模型可能是更好的选择。杨立昆到底在煮什么回到最初的问题杨立昆的 JEPA 到底在做什么他在做一件看似逆潮流的事在所有人都在追求更大的 LLM 时他在追求一种完全不同的 AI 范式。这个范式的核心信念是理解世界需要世界模型而不是更多的文本数据预测应该在抽象层面进行而不是在像素或 token 层面好的理论比好的工程更重要——LeJEPA 用 50 行代码证明了这一点JEPA 可能不会取代 ChatGPT但它可能成为机器人、自动驾驶、医学影像、科学发现等领域的基础架构。当 AI 需要理解物理世界、做出规划决策时JEPA 式的世界模型可能是比自回归生成更合适的工具。开源了你可以自己玩EB-JEPA2026 年 2 月Meta FAIR 发布的官方开源库包含图像、视频、动作条件视频的 JEPA 实现以及基于 JEPA 的规划算法。代码github.com/facebookresearch/eb_jepa特点每个示例都可在单 GPU 上几小时内训练完成包含I-JEPA、V-JEPA、AC-JEPA动作条件的完整实现V-JEPA 22025 年 6 月视频世界模型支持零样本机器人控制。论文arxiv.org/abs/2506.09985代码github.com/facebookresearch/jepaLeJEPA理论最优的 JEPA 实现约 50 行核心代码。论文arxiv.org/abs/2511.08544我的思考JEPA 最打动我的是它对什么是好的表征这个根本问题的回答。LeJEPA 证明了最好的表征是各向同性高斯分布。这意味着一个理想的基础模型应该把所有输入均匀地分散在隐空间的各个角落——没有浪费的维度没有坍塌的子空间每个维度都承载着独特的信息。这让我想到一个更深层的问题人类大脑是不是也在做类似的事情我们看到一只猫不会去记忆每个像素而是提取出猫这个概念。这个概念在我们的神经网络中是如何表征的它是否也接近某种均匀分散的状态也许 JEPA 不仅仅是一个工程方法它还是一扇窥探智能本质的窗口。论文 | LeJEPA (arxiv.org/abs/2511.08544) | EchoJEPA (ICML 2026) | V-JEPA 2 (arxiv.org/abs/2506.09985) | EB-JEPA (arxiv.org/abs/2602.03604)代码 | facebookresearch/eb_jepa视频 | What Is Yann LeCun Cooking? by bycloud
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2544578.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!