杨立昆新模型杀疯了,1500万参数单GPU就能碾压大厂?
就在前几天AI教父、图灵奖得主杨立昆刚发了个新模型名叫LeWorldModel论文一发出整个圈子瞬间炸锅。说出来你们可能都不信——这货只有1500万参数单块GPU几个小时就能训完随便一个研究者都拉起来跑一遍。现在动不动就是千亿万亿参数一个才1500万参数的东西拿出来能干啥来跟我一起往下看。世界模型和大语言模型根本不是一回事大语言模型——说白了就是死记硬背文字之间的关系物理世界的逻辑它懂个屁你问它把碗放到窗边会发生什么它能答对——摔碎。但这个答案是从数据库里扒出来背给你听的。它根本不懂什么是重力什么是物体运动。你真让它控制一个机械臂去拿碗保证分分钟翻车。世界模型——主打的是懂物理、真理解的路线。目前市场上有三种主流路线。第一生成世界模型比如英伟达的cosmos、谷歌的Genie主打预测像素又慢又费资源第二潜在空间世界模型比如Deepmind的Dreamer比生成式高效点离开特定任务就歇菜换个场景就不行了而杨立昆的JEPA是第三条路不背文字直接扎进物理世界学因果、学逻辑——物体怎么动力怎么作用下一步会发生什么就像打台球普通人是瞎打大模型是模仿别人的打球姿势。但JEPA是真的在脑子里推演打哪颗球、往哪个方向、用多大劲想明白再出手。杨立昆这次牛在哪JEPA其实早就有了但一直有个毛病训练的时候爱偷懒耍滑不管啥输入都给你生成差不多的东西。就像做判断题全选√混个二三十分就交差实际上啥也没学会。以前为了治它这个毛病调参调到崩溃也没人能保证它不偷懒。所以这技术以前就是大厂的专属普通人连碰的资格都没有。而杨立昆这次最牛的地方就是想了个又简单、又粗暴还百分百管用的方法把模型里的关键信息拆成好几个方向每个方向都挨个检查只要有一个方向不正常就狠狠惩罚它。就这么一招把模型治得服服帖帖再也不敢敷衍了事。以前要死磕6个参数。现在只用调一个。效果呢小、快、强参数小开头说LeWorldModel的参数只有1500万。什么概念GPT-3的参数是它的一万倍速度快规划速度比主流模型快48倍。那些大模型每次琢磨半天而杨立昆这个1秒就能想明白。LeMW高效规划速度提升48倍实战强网上做了一个有意思的测试给模型看了三个视频第一个正常物理运动第二个物体颜色变了第三个是违反物理逻辑的物体瞬移。你们猜结果咋样模型对颜色变化完全没反应但看到物体瞬移的时候非常惊讶。说明它能清晰地区分“外观变了”和“物理逻辑被打破了”。这才是真正的理解。不是背答案不是装懂是真的吃透了。最后的话GPT再能聊、再能写面对真实世界的动作照样抓瞎。而杨立昆这次解决的恰恰是大语言模型根本干不了的事——看懂现实、控制物体、预判下一步动作。这俩没有谁取代谁的说法各有各的本事。但我们要清楚像机器人、自动驾驶这种地方才是能落地我们真正能用得上的地方。现在他把这个技术门槛已经拉到了地板上人人都能玩。你说他是在做研究我觉得是在拆墙。至于杨立昆这波操作够不够狠你们怎么看评论区聊聊
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2473267.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!