Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻
一水 发自 凹非寺量子位 | 公众号 QbitAI再见了所有的羊驼。亚历山大王带队9个月从零重构Meta所有AI技术栈在不断的质疑中交出超级智能实验室第一个模型主打原生多模态的Muse Spark。模型发布后Meta股价火速拉升约7%中间一度涨超近10%当日整体上涨6%左右。市场的反应可谓相当热烈。随手一扒你就会发现这款模型背后藏着不少我们熟悉的高手思维链作者Jason Wei、o1核心贡献者Hyung Won Chung、被小扎天价挖来的余家辉、扩散模型核心人物宋飏……嗯当这群人凑在一起很明显你就会找到一个关键词推理。没错据Jason Wei爆料9个月前他们坐在一起讨论时首先写下的就是一款用于推理的llama模型脚本而现在完全体终于诞生。而顶尖高手耗时9个月打磨Muse Spark也总算让Meta在第三方测评中赶上第一梯队一雪llama 4带来的前耻。而且很有意思的一点是Meta这次一反常态没有反复强调自己拿了多少SOTA而是稍显克制地表示Muse Spark在多模态感知、推理、健康和自主任务方面表现不错但在编程和长时间自主运行方面仍与对家的顶尖模型存在差距。咳咳看来之前llama 4确实给Meta留下了心理阴影doge。另外Muse Spark的出生也终于让长期以来有关“Meta开闭源”的讨论盖棺定论这次是真闭源了。目前这款模型已上线Meta网站和APPAPI仅向部分合作伙伴开放。不过亚历山大王还是留了个口子表示“计划未来开源后续版本”“Meta回来了”老规矩先看一波测评成绩。作为Meta迄今最强大的模型Muse Spark这次主要在三个方面表现突出一是多模态理解能力。不管是看论文图表还是屏幕各项得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。从网友们的测试来看它好像尤为擅长图片转代码。当然文本能力也不差doge在网友的激情测试中它就火速通过了新版弱智吧风格的洗车测试。100米外有个洗车店我该开车去还是走路去。Muse Spark洗车当然要把车开过去但没必要搞得跟上下班通勤似的。当然也不排除是数据污染的问题毕竟问题出来也挺久了…再一个就是工具调用能力测评情况也和多模态理解能力类似。以及这次Muse Spark着重强调的医学能力。由于和1000医生展开了合作它不仅在开放式健康问答HealthBench Hard上拿到42.8的最高分而且在多模态医学问答MedXpertQA MM中位居前列。不过短板我们开头也说了Muse Spark仍在编程和Agent类任务上与其他顶尖选手存在差距。可能也是为了尽量弥补这一点他们这次还专门推出了Contemplating沉思模式。主要是让多个Agent同时思考同一个问题然后汇总结果找出最好的。在这套打法下Muse Spark就能和Gemini Deep Think、 GPT Pro这类极限推理模式展开正面PK了。比如在“人类最后的考试”中Muse Spark明显压过一头不过在物理奥赛理论题中还是略逊一筹。目前沉思模式正在Meta网站灰度测试另外值得一提的是Meta这次无预告直接上线了“购物模式”。亚历山大王表示模型会结合用户在ins、Facebook、Threads上关注的创作者和品牌偏好做个性化的购物推荐。好好好这次也不给你讨论的机会了之前OpenAI可没少因为广告挨骂。目前随着Muse Spark测评一同出炉的还有第三方机构的测评。他们拿到Muse Spark的早期访问权测了一波然后给出了一个结论Meta回来了在关键指标人工智能分析指数上其得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。这也和Muse Spark自己给出的测评成绩差不多。对外界而言初步来看Muse Spark确实把Meta重新带回了人工智能第一梯队。背后训练细节至于Muse Spark是如何做到这一点的Meta也公布了背后的训练细节。核心其实就是亚历山大王提到的9个月重构一切。新的基础设施、新的架构、新的数据管道。具体可以看网友给大家划的重点在预训练阶段能够以比Llama 4 少10倍以上的计算量达到相同的性能水平。强化学习训练展现出平滑且可预测的改进具有良好的泛化能力和可扩展性。Test-time阶段在加入长度惩罚机制后“思维压缩”开始生效模型学会了用更少的token解决问题。Meta在博客中介绍过去9个月他们对Muse Spark的预训练技术栈进行了全面升级。所有改进的目标都是为了让每一分算力都能产生更大的价值。为了验证效果他们做了一个对比实验先用一系列小模型拟合出一条“算力-能力”的Scaling曲线然后计算要达到某个性能水平具体需要多少算力。结果发现相比Llama 4Muse Spark达到同样水平所需要的计算量低了一个数量级以上10.3倍。预训练完成后他们进一步用强化学习来提升模型能力。虽然大规模RL训练通常很不稳定但他们声称自己的新架构做到了“稳中有进”。如下图所示随着RL训练步数增加模型在训练数据上的成功率无论是单次尝试还是16次中至少成功一次呈现对数线性增长。这说明RL在提升可靠性的同时没有破坏推理的多样性。而且在模型从未见过的任务上准确率同样在稳步提升——这说明RL带来的能力提升是可预测、可泛化的不是死记硬背。以及为了让模型在回答复杂问题之前先“想一想”团队仍用强化学习训练它具备这种“测试时推理”能力。不过需要注意实践证明Test-time阶段的推理尤为耗费token所以如何精打细算也是这一阶段的重点。对此他们用了两个关键手段来平衡效果与效率一是思考时间惩罚。鼓励模型用更短的推理路径得出正确答案倒逼它学会“思维压缩”。二是多智能体协作。让多个模型或模块协同工作在保证响应速度不降的前提下提升整体表现。然后在AIME这类高难度评测集上他们观察到了一个有趣的“三阶段变化”模型一开始会不自觉延长思考希望通过拉长推理过程来提高正确率。但这会马上触发“思考时间惩罚”于是模型被迫精简推理学会用更少的token解决问题。而在精简之后模型还表现出了扩展性能——在高效的基础上继续优化解法最终实现用更少的资源获得更强的性能表现。也不乏翻车的不过前面也说了Muse Spark虽然将Meta带回了第一梯队但在编程、Agent类任务上仍有不足。这不模型刚发布翻车集锦也来了……有人想用它生成网站结果3个请求一个都没实现而且连最基本的前端都无。不过后来贴主发现可能是偶然错误模型正常情况下做出来的前端是这样的。一个简单的编程任务Muse Spark虽生成了一大堆东西但根本跑不通。在一个Python文件里实现自动微分autograd和神经网络。网友甚至调侃模型根本没在学训练了1800个epoch损失函数却一直卡在同一个值上没动过。白白浪费算力了……正常情况下随着训练进行损失应该逐步下降表明模型在“学习”所以问题来了有试过的朋友觉得亚历山大王的首个模型如何https://ai.meta.com/blog/introducing-muse-spark-msl/参考链接[1]https://x.com/_jasonwei/status/2041930482179567966?s20[2]https://x.com/jhyuxm/status/2041913529033486468?s20[3]https://x.com/DrYangSong/status/2041911869934596214?s20一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注 点亮星标
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2502590.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!