Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻

news2026/4/11 15:15:32
一水 发自 凹非寺量子位 | 公众号 QbitAI再见了所有的羊驼。亚历山大王带队9个月从零重构Meta所有AI技术栈在不断的质疑中交出超级智能实验室第一个模型主打原生多模态的Muse Spark。模型发布后Meta股价火速拉升约7%中间一度涨超近10%当日整体上涨6%左右。市场的反应可谓相当热烈。随手一扒你就会发现这款模型背后藏着不少我们熟悉的高手思维链作者Jason Wei、o1核心贡献者Hyung Won Chung、被小扎天价挖来的余家辉、扩散模型核心人物宋飏……嗯当这群人凑在一起很明显你就会找到一个关键词推理。没错据Jason Wei爆料9个月前他们坐在一起讨论时首先写下的就是一款用于推理的llama模型脚本而现在完全体终于诞生。而顶尖高手耗时9个月打磨Muse Spark也总算让Meta在第三方测评中赶上第一梯队一雪llama 4带来的前耻。而且很有意思的一点是Meta这次一反常态没有反复强调自己拿了多少SOTA而是稍显克制地表示Muse Spark在多模态感知、推理、健康和自主任务方面表现不错但在编程和长时间自主运行方面仍与对家的顶尖模型存在差距。咳咳看来之前llama 4确实给Meta留下了心理阴影doge。另外Muse Spark的出生也终于让长期以来有关“Meta开闭源”的讨论盖棺定论这次是真闭源了。目前这款模型已上线Meta网站和APPAPI仅向部分合作伙伴开放。不过亚历山大王还是留了个口子表示“计划未来开源后续版本”“Meta回来了”老规矩先看一波测评成绩。作为Meta迄今最强大的模型Muse Spark这次主要在三个方面表现突出一是多模态理解能力。不管是看论文图表还是屏幕各项得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。从网友们的测试来看它好像尤为擅长图片转代码。当然文本能力也不差doge在网友的激情测试中它就火速通过了新版弱智吧风格的洗车测试。100米外有个洗车店我该开车去还是走路去。Muse Spark洗车当然要把车开过去但没必要搞得跟上下班通勤似的。当然也不排除是数据污染的问题毕竟问题出来也挺久了…再一个就是工具调用能力测评情况也和多模态理解能力类似。以及这次Muse Spark着重强调的医学能力。由于和1000医生展开了合作它不仅在开放式健康问答HealthBench Hard上拿到42.8的最高分而且在多模态医学问答MedXpertQA MM中位居前列。不过短板我们开头也说了Muse Spark仍在编程和Agent类任务上与其他顶尖选手存在差距。可能也是为了尽量弥补这一点他们这次还专门推出了Contemplating沉思模式。主要是让多个Agent同时思考同一个问题然后汇总结果找出最好的。在这套打法下Muse Spark就能和Gemini Deep Think、 GPT Pro这类极限推理模式展开正面PK了。比如在“人类最后的考试”中Muse Spark明显压过一头不过在物理奥赛理论题中还是略逊一筹。目前沉思模式正在Meta网站灰度测试另外值得一提的是Meta这次无预告直接上线了“购物模式”。亚历山大王表示模型会结合用户在ins、Facebook、Threads上关注的创作者和品牌偏好做个性化的购物推荐。好好好这次也不给你讨论的机会了之前OpenAI可没少因为广告挨骂。目前随着Muse Spark测评一同出炉的还有第三方机构的测评。他们拿到Muse Spark的早期访问权测了一波然后给出了一个结论Meta回来了在关键指标人工智能分析指数上其得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。这也和Muse Spark自己给出的测评成绩差不多。对外界而言初步来看Muse Spark确实把Meta重新带回了人工智能第一梯队。背后训练细节至于Muse Spark是如何做到这一点的Meta也公布了背后的训练细节。核心其实就是亚历山大王提到的9个月重构一切。新的基础设施、新的架构、新的数据管道。具体可以看网友给大家划的重点在预训练阶段能够以比Llama 4 少10倍以上的计算量达到相同的性能水平。强化学习训练展现出平滑且可预测的改进具有良好的泛化能力和可扩展性。Test-time阶段在加入长度惩罚机制后“思维压缩”开始生效模型学会了用更少的token解决问题。Meta在博客中介绍过去9个月他们对Muse Spark的预训练技术栈进行了全面升级。所有改进的目标都是为了让每一分算力都能产生更大的价值。为了验证效果他们做了一个对比实验先用一系列小模型拟合出一条“算力-能力”的Scaling曲线然后计算要达到某个性能水平具体需要多少算力。结果发现相比Llama 4Muse Spark达到同样水平所需要的计算量低了一个数量级以上10.3倍。预训练完成后他们进一步用强化学习来提升模型能力。虽然大规模RL训练通常很不稳定但他们声称自己的新架构做到了“稳中有进”。如下图所示随着RL训练步数增加模型在训练数据上的成功率无论是单次尝试还是16次中至少成功一次呈现对数线性增长。这说明RL在提升可靠性的同时没有破坏推理的多样性。而且在模型从未见过的任务上准确率同样在稳步提升——这说明RL带来的能力提升是可预测、可泛化的不是死记硬背。以及为了让模型在回答复杂问题之前先“想一想”团队仍用强化学习训练它具备这种“测试时推理”能力。不过需要注意实践证明Test-time阶段的推理尤为耗费token所以如何精打细算也是这一阶段的重点。对此他们用了两个关键手段来平衡效果与效率一是思考时间惩罚。鼓励模型用更短的推理路径得出正确答案倒逼它学会“思维压缩”。二是多智能体协作。让多个模型或模块协同工作在保证响应速度不降的前提下提升整体表现。然后在AIME这类高难度评测集上他们观察到了一个有趣的“三阶段变化”模型一开始会不自觉延长思考希望通过拉长推理过程来提高正确率。但这会马上触发“思考时间惩罚”于是模型被迫精简推理学会用更少的token解决问题。而在精简之后模型还表现出了扩展性能——在高效的基础上继续优化解法最终实现用更少的资源获得更强的性能表现。也不乏翻车的不过前面也说了Muse Spark虽然将Meta带回了第一梯队但在编程、Agent类任务上仍有不足。这不模型刚发布翻车集锦也来了……有人想用它生成网站结果3个请求一个都没实现而且连最基本的前端都无。不过后来贴主发现可能是偶然错误模型正常情况下做出来的前端是这样的。一个简单的编程任务Muse Spark虽生成了一大堆东西但根本跑不通。在一个Python文件里实现自动微分autograd和神经网络。网友甚至调侃模型根本没在学训练了1800个epoch损失函数却一直卡在同一个值上没动过。白白浪费算力了……正常情况下随着训练进行损失应该逐步下降表明模型在“学习”所以问题来了有试过的朋友觉得亚历山大王的首个模型如何https://ai.meta.com/blog/introducing-muse-spark-msl/参考链接[1]https://x.com/_jasonwei/status/2041930482179567966?s20[2]https://x.com/jhyuxm/status/2041913529033486468?s20[3]https://x.com/DrYangSong/status/2041911869934596214?s20一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注 点亮星标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2502590.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…