杨立昆的「秘密厨房」:JEPA 到底在煮什么?——从 LeJEPA 到 EchoJEPA 的全面解读

news2026/5/7 23:33:38
基于 bycloud 视频解读结合 LeJEPA、EchoJEPA、V-JEPA 2 等最新论文深度研读视频原链接What Is Yann LeCun Cooking? JEPA Explained Simply一个 AI 界的异端2025 年 9 月纽约大学的一场研讨会上Meta 首席 AI 科学家杨立昆Yann LeCun说了一句让整个 AI 圈炸锅的话“自回归大语言模型注定失败。”说这话的人不是什么无名之辈——他是深度学习的三巨头之一2018 年图灵奖得主卷积神经网络的发明者。而他口中的替代方案就是他这几年一直在推的JEPAJoint-Embedding Predictive Architecture联合嵌入预测架构。但问题是每次杨立昆讲 JEPA底下的人都在挠头。这个概念涉及隐空间、表征坍塌、等方高斯分布……一堆抽象术语让大多数人听完还是一头雾水。今天我们用最通俗的方式把 JEPA 的核心逻辑、最新进展和真实效果讲清楚。先忘掉你认识的所有 AI 训练方式要理解 JEPA先得理解它反对什么。目前主流的 AI 训练方式有两种第一种自回归预测LLM 的做法给你一段文字的前半部分让你预测下一个字。GPT 就是这么训练的。它的特点是逐字生成精确到像素/字符级别。问题在哪想象你在看一部电影有人每隔一秒就暂停问你下一帧画面长什么样。你当然猜不准——因为光影变化、镜头抖动、风吹草动这些细节根本无法精确预测。但如果你被问的是接下来会发生什么故事你就能回答得很好。第二种像素级重建MAE、VAE 的做法给你一张图片的一部分让你把缺失的像素补全。这就像给你一张被撕掉一角的拼图让你把缺的那块画出来——精确到每个像素的颜色。问题在哪太关注细节忽略了语义。一张猫的照片猫的毛发方向、光线角度这些细节对理解猫毫无帮助但像素级重建会强迫模型去学这些无关紧要的东西。JEPA 的做法完全不同它不预测像素也不预测 token而是预测抽象描述。“视图”JEPA 的基本单位JEPA 的核心概念是视图View。什么是视图就是对同一个事物的不同看法。比如一张猫的照片裁剪后的版本是一个视图模糊后的版本是一个视图调整亮度后的版本是一个视图遮住一部分后的版本是一个视图这些视图虽然看起来不同但语义是相同的——它们都是猫。JEPA 的训练逻辑是给定一个视图上下文预测另一个视图在隐空间中的表征。注意关键词隐空间Latent Space。JEPA 不是让你预测被遮住的那块区域长什么样那是像素级重建而是让你预测那块区域的抽象特征是什么。打个比方如果有人给你看了一幅画的左半边让你猜右半边。像素级重建要求你画出每一笔的颜色和位置而 JEPA 只要求你说出右半边应该是一只鸟在飞——它关注的是语义不是细节。这就是 JEPA 的核心优势过滤无关噪声聚焦语义信息。JEPA 的三大组件JEPA 的训练涉及三个核心模块1. 上下文编码器Context Encoder把你看到的部分比如视频的前半段编码成一个隐空间向量。这个向量是对你看到的内容的抽象描述。2. 目标编码器Target Encoder把你要预测的部分比如视频的后半段也编码成一个隐空间向量。这个向量是正确答案的抽象描述。3. 预测器Predictor给定上下文编码器的输出预测目标编码器的输出。训练目标就是让预测器的预测尽可能接近目标编码器的实际输出。关键细节目标编码器的梯度是截断的stop-gradient。这意味着预测器在学习如何预测但目标编码器在学习如何编码时不受预测器的影响。这就像考试学生预测器要猜老师的答案目标编码器但老师不会因为学生的猜测而改变自己的评分标准。三大应用场景场景一表征提取I-JEPA这是最基础的应用。用 JEPA 训练一个视觉编码器让它学会从图像中提取有意义的特征。训练完成后这个编码器可以直接用于下游任务分类、检测等不需要从头训练。Meta 的 I-JEPA 在 ImageNet 上的线性探测准确率达到了当时自监督方法的 SOTA。场景二世界建模V-JEPA / V-JEPA 2这是杨立昆最看重的方向。V-JEPA 用视频数据训练让模型学会预测视频中被遮住的时空区域在隐空间中的表征。本质上它是在学习一个世界模型——理解物理世界的运作规律。2025 年推出的V-JEPA 2更是实现了突破它不仅在互联网规模的视频数据上进行了自监督预训练还结合了少量机器人交互数据实现了零样本机器人控制。也就是说一个只看过网上的视频、从未操作过机器人的模型可以直接控制机器人完成新任务。这是 JEPA 路线最有力的证据理解世界 ≠ 生成文本。场景三机器人隐空间规划传统的机器人规划在像素空间或动作空间中进行计算成本极高。JEPA 可以在隐空间中进行规划——先在抽象世界中模拟不同动作的后果选择最优方案再执行。这就像人类下棋高手不会在脑中精确模拟每个棋子的移动轨迹而是在一个抽象的策略空间中思考。JEPA 让 AI 也能做到这一点。最大的敌人表征坍塌JEPA 的训练有一个致命的陷阱表征坍塌Representation Collapse。什么是表征坍塌想象你是一个学生考试题目是根据上半句猜下半句。如果你发现一个万能答案——不管上半句是什么你都回答我不知道——虽然这个答案每次都错得不多但你什么都没学到。在 JEPA 中这表现为编码器把所有输入都映射到几乎相同的向量。如果所有图像的隐空间表征都一样预测器只需要输出一个固定向量就能预测任何目标——任务变得毫无意义。有两种坍塌完全坍塌所有输入映射到同一个点维度坍塌所有输入映射到一个低维子空间为了对抗坍塌研究者们发明了各种补丁补丁一EMA指数移动平均用两个编码器一个在线更新一个通过 EMA 缓慢更新。目标编码器用 EMA 版本这样即使预测器找到了作弊的方法目标编码器也不会立刻配合。这是 SimSiam、BYOL 等方法的核心技巧。补丁二样本对比法SimCLR 为代表同时处理多个样本让不同样本的表征尽量远离相同样本的不同视图尽量接近。这需要较大的 batch size通常 4096计算成本高。补丁三维度对比法Barlow Twins、VICReg 为代表不比较不同样本而是约束隐空间中每个维度的统计特性——让方差足够大、让不同维度之间尽量不相关。VICReg 是目前最流行的方案之一。这些方法各有优劣但都有一个共同问题它们都是启发式的heuristic——我们知道它们有效但不知道为什么有效也不知道它们是否最优。LeJEPA用数学终结补丁时代2025 年底LeJEPALatent-Euclidean JEPA横空出世来自 Meta FAIR 的 Randall Balestriero 和杨立昆本人。LeJEPA 的核心贡献不是又发明了一个新补丁而是从数学上证明了最优解是什么。核心定理隐空间表征应该服从各向同性高斯分布LeJEPA 证明了如果要让模型在训练后的各种下游任务上表现最好编码器输出的隐空间表征应该服从各向同性高斯分布Isotropic Gaussian——即均值向量为零、协方差矩阵为单位矩阵的多维正态分布。这个结论听起来很抽象但直觉很清晰想象你在整理一个图书馆。最好的整理方式是让每本书在各个维度上的信息都均匀分布——不能所有书都挤在一个角落维度坍塌也不能所有书都叠在一起完全坍塌。各向同性高斯分布就是这种均匀且分散的理想状态。SIGReg如何高效地达到理想分布知道了目标分布怎么让编码器的输出逼近它LeJEPA 提出了SIGRegSketched Isotropic Gaussian Regularization一个精妙的正则化方法随机选择一组方向向量把隐空间表征投影到这些方向上检查投影后的分布是否接近标准正态分布如果不是调整编码器使其接近这就像质检员从不同角度检查产品——不需要检查所有细节只需要从足够多的角度抽查就能确保产品质量。SIGReg 的优势线性复杂度计算和内存开销与维度成线性关系理论保证有严格的统计检验理论支撑无需启发式不需要 stop-gradient、teacher-student、超参数调度器实验结果简洁即力量LeJEPA 的结果令人印象深刻ImageNet-1k 线性探测ViT-H/14 达到79%与需要大量启发式技巧的方法相当训练稳定性即使在18 亿参数的 ViT-g上也能稳定训练不需要任何特殊技巧跨架构通用在 ResNet、ViT、ConvNeXt、MaxViT、Swin Transformer 等 60 架构上都能工作领域迁移在 Galaxy10天文图像数据集上LeJEPA 的域内预训练全面超越DINOv2/v3 的迁移学习——即使后者是在数十亿自然图像上训练的前沿模型最令人惊讶的是LeJEPA 的核心代码只有约 50 行。没有 stop-gradient没有 EMA没有 teacher-student只有一个超参数。这印证了一个朴素的道理当你真正理解了问题解决方案往往出奇地简单。EchoJEPAJEPA 在医学影像的惊艳落地如果说 LeJEPA 证明了 JEPA 的理论基础那么 EchoJEPA 则证明了它的实用价值。EchoJEPAICML 2026将 JEPA 应用于超声心动图——全球每年约 3000 万次检查的心脏超声影像。超声影像有一个独特的挑战散斑噪声Speckle Noise。这些随机出现的噪点与心脏解剖结构毫无关系但传统方法会强迫模型去学习这些噪声模式。EchoJEPA 的核心优势正好对症下药JEPA 在隐空间中预测天然过滤了像素级的噪声。结果令人惊叹零样本泛化到儿科患者EchoJEPA 在成人数据上预训练后直接应用于儿科患者性能超越了在儿科数据上完全微调的基线模型对声学退化的鲁棒性在模拟各种超声伪影深度衰减、声影、散斑的测试中EchoJEPA 的性能下降仅17%而竞争对手高达40%数据效率仅用 1% 的标注数据就能达到竞争性能这告诉我们当你不强迫模型去预测无关细节时它反而学到了更本质的东西。为什么 JEPA 不适用于大语言模型视频里提到了一个重要观点JEPA 不适合替代 LLM。为什么核心原因是模态差异视觉/视频信息是连续的、冗余的。一张猫的照片有百万像素但猫这个概念只需要几个维度就能表达。JEPA 的隐空间预测天然适合这种高冗余 → 低维语义的压缩。语言信息是离散的、密集的。每个词都承载着精确的语义“猫和狗之间没有中间状态”。在语言中预测下一个 token 本身就是在做语义预测——没有像素噪声需要过滤。所以杨立昆说LLM 注定失败更准确的理解是自回归 LLM 不是通向 AGI 的唯一路径也不是最优路径。对于需要理解物理世界、进行规划和推理的任务JEPA 式的世界模型可能是更好的选择。杨立昆到底在煮什么回到最初的问题杨立昆的 JEPA 到底在做什么他在做一件看似逆潮流的事在所有人都在追求更大的 LLM 时他在追求一种完全不同的 AI 范式。这个范式的核心信念是理解世界需要世界模型而不是更多的文本数据预测应该在抽象层面进行而不是在像素或 token 层面好的理论比好的工程更重要——LeJEPA 用 50 行代码证明了这一点JEPA 可能不会取代 ChatGPT但它可能成为机器人、自动驾驶、医学影像、科学发现等领域的基础架构。当 AI 需要理解物理世界、做出规划决策时JEPA 式的世界模型可能是比自回归生成更合适的工具。开源了你可以自己玩EB-JEPA2026 年 2 月Meta FAIR 发布的官方开源库包含图像、视频、动作条件视频的 JEPA 实现以及基于 JEPA 的规划算法。代码github.com/facebookresearch/eb_jepa特点每个示例都可在单 GPU 上几小时内训练完成包含I-JEPA、V-JEPA、AC-JEPA动作条件的完整实现V-JEPA 22025 年 6 月视频世界模型支持零样本机器人控制。论文arxiv.org/abs/2506.09985代码github.com/facebookresearch/jepaLeJEPA理论最优的 JEPA 实现约 50 行核心代码。论文arxiv.org/abs/2511.08544我的思考JEPA 最打动我的是它对什么是好的表征这个根本问题的回答。LeJEPA 证明了最好的表征是各向同性高斯分布。这意味着一个理想的基础模型应该把所有输入均匀地分散在隐空间的各个角落——没有浪费的维度没有坍塌的子空间每个维度都承载着独特的信息。这让我想到一个更深层的问题人类大脑是不是也在做类似的事情我们看到一只猫不会去记忆每个像素而是提取出猫这个概念。这个概念在我们的神经网络中是如何表征的它是否也接近某种均匀分散的状态也许 JEPA 不仅仅是一个工程方法它还是一扇窥探智能本质的窗口。论文 | LeJEPA (arxiv.org/abs/2511.08544) | EchoJEPA (ICML 2026) | V-JEPA 2 (arxiv.org/abs/2506.09985) | EB-JEPA (arxiv.org/abs/2602.03604)代码 | facebookresearch/eb_jepa视频 | What Is Yann LeCun Cooking? by bycloud

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2544578.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…