不卷跑分不养虾,MiniMax M2.7 带来了一个真正能打的 Cowork Agent
3月18日晚Minimax 悄悄上了波大分。更新了其最新的M2.7版本并且官方还给出了一个核心定义M2.7是 MiniMax 第一代深度参与自身进化的模型。其不仅在指令遵循、办公协同、Coding 方面有明显提升更重要的是它能够自主搭建 Agent Harness。也就是说它能搭出一套完整的任务框架调用各种技能和工具解决单个模型搞不定的问题思考干活两手抓妥妥的“自我进化”。但这不是光说不练Minimax还甩出了可验证的测试数据。在测试中测试员给它甩在了MLE Lite 22道高难度竞赛中M2.7取得了9金5银1铜的成绩仅次于Opus-4.6、GPT-5.4与Gemini-3.1持平。另外在当下行业最关注的 Agent 真实任务执行能力评测上M2.7 的表现同样出圈。在基于标准化 OpenClaw Agent 测试的 PinchBench 榜单中刚发布的 M2.7 快速登顶以 86.2% 的任务成功率击败英伟达 Nemotron 3拿下了 Best score 榜单的全球第四名仅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6刷新了国内大模型在该榜单的最好成绩。而此次更新仅仅距离 M2.5 过去一个月。接连刷新的榜单、肉眼可见的能力跃升都在印证一件事大模型的能力已经不仅仅局限于答题、写代码的基础能力正在向自主规划、自主迭代进化。尤其是 OpenClaw 爆火后大家更在意的已经不是模型能不能写代码了而是接进真实工作流以后到底好不好用。说白了就是把模型和工具真正接起来跑任务之后它会不会掉链子能不能把事情接着往下做。OpenClaw 本身就是冲着这种用法去的所以现在大家都在找一个更合适的大模型接入。我们第一时间拿到了上手评测的机会。这一次我们核心要验证的只有一件事接入 OpenClaw 之后M2.7 的真实体验到底如何M2.7 到底是不是现在国内最好的 Cowork Agent长链路任务的稳定性才是真分水岭最近 OpenClaw 这波热度大家应该都感受得到。现在模型能接进去真不算新鲜事了真正开始拉开差距的是接进去以后到底好不好使。任务短的时候很多模型都还能装得挺像样一旦开始挂 skills、开始叠约束、开始把流程拉长问题就出来了前面条件没吃透后面补充一句它就乱做到一半直接掉线。OpenClaw 本来就是冲着把模型和工具、会话、任务链路接起来去的所以放在这个环境里测反而更容易看出一个模型到底靠不靠谱。第一个任务是一道约束很多的龙虾活动题预算、人群、渠道、门店承载、风险和备选方案全都提前卡死重点就看它会不会先把条件理清再往下拆。M2.7 这一步给我的感觉还不错没有急着往外发散而是先把约束捞出来再拆任务再给方案这种起手方式就比较让人放心。而这也正是 M2.7 本次升级的核心强化方向 —— 复杂长链路任务的承接与落地实测下来的表现的确不俗。接着我把任务再拉长一点。先给一版基础方案然后一轮一轮往上加条件不能打折、供应链有限、门店人手少、目标人群变了最后再加一个更像真实业务会提的要求希望这套活动下个月还能复用成 SOP。全程下来M2.7 没有出现很多模型常见的 “一加需求就推翻重写” 的问题始终能沿着初始的核心逻辑持续优化迭代这一点对于长流程工作流来说至关重要。第三轮迭代中它出现了短暂的卡顿能看出超长链路中仍有小幅波动但在追问之后它快速补齐了所有内容包括最小可复用版本、标准化执行环节、人工决策节点完整承接没有出现信息遗漏。跑完这两组全链路任务M2.7 在 OpenClaw 里的表现已经非常清晰它最核心的价值不是单轮输出多么惊艳的答案而是任务启动时逻辑清晰、链路拉长后不易散架、多轮迭代中不丢约束。在真实的工作流里这种稳定的持续交付能力远比单轮的华丽输出重要得多。而在复杂长链路任务的承接上M2.7 已经交出了国内最好的 Cowork Agent该有的满分答卷。代码能力全场景验证从 “写代码” 到 “做项目” 的工程化跃升真要看编程能力还是得把项目丢过去。MiniMax 这次公开给出的方向里Coding 的位置明显更靠前。官方数据显示在 SWE-Pro 基准测试中M2.7 得分 56.22%无限接近 Claude Opus 的顶级水平在端到端完整项目交付的 VIBE-Pro 测试中得分 55.6%在复杂工程系统理解的 Terminal Bench 2 测试中得分 57.0%。更重要的是它的能力早已跳出了单纯的代码生成延伸到了日志分析、Bug 定位、故障排障、工程重构等高阶开发领域而这种变化在实测中有着极为直观的体感。在前端测试环节我们给出了一个品牌展示官网的全量开发需求这个任务的难度并非简单的页面拼接 ——它会包含品牌调性、视觉配色、页面节奏、交互动效、粒子特效等多个维度并且多个维度必须同时达标最终产出的才是一个能真正商用的官网。很多模型在这里最容易翻车的。而 M2.7 的表现也超出了我的意料尤其是配合官方 Skill 协同运行时页面的完成度直接拉满完全没有常见的模板化痕迹视觉层次、品牌配色、交互动效完全统一最终交付的是一个可以直接上线使用的完整站点而非零散的代码片段。在后端测试环节我给 M2.7 的不是补几段接口代码的小任务而是一个从零开始往下搭的真实项目。技术栈用的是 Python、FastAPI 和 PostgreSQL里面既有接口、数据模型、鉴权这些基础环节也有迁移、测试、文档和后续排障。这类任务真正难的地方不在代码量而在上下文要一直对得上前面定下来的结构后面每一步都不能乱。 M2.7 这一轮最让人惊喜的一点就是它在这种连续工程任务中更像是资深开发的项目管理思维而非单纯的代码生成工具先搭好完整的项目骨架再逐层补齐数据库设计、业务接口、测试用例、接口文档项目上线跑通后遇到问题还能自主排查、快速修复全程逻辑连贯没有出现任何架构跑偏、上下文脱节的问题。M2.7 这次编程能力最明显的变化不是某个点突然特别炸而是工程感更强了。前端会往展示结果上收后端也能按项目节奏一路往下推。现在模型会写代码已经不稀奇了真正有价值的是项目跑起来之后还能不能继续跟。就这一点看M2.7 已经不只是一个会生成代码的模型了而是在往真正能参与开发流程的 Cowork Agent 方向走。放到国内这批模型里这种工程参与感其实很少见。办公自动化全链路考验覆盖完整知识工作流的协同能力Office 自动化这块我没有拿简单表格来试而是直接上了一条完整链路。先生成一套模拟经营数据再基于数据做复杂金融图表最后把图表和数据整理成网页数据报告。这里测的已经不是会不会写公式而是数据、图表、分析和展示能不能连成一套结果。M2.7 这一轮的表现比较扎实。数据生成不是随便拼数字收入、利润率、现金流、营收这些指标之间有基本逻辑图表也不是简单折线图而是把几个关键经营指标放进同一个分析画面里信息密度和重点都够。继续往下做网页报告时它也没有停在把图贴上去而是把核心结论、风险点和管理建议一起整理出来最后形成的是一份能直接展示的页面不是一堆零散素材。它现在展现出来的已经不是基础表格处理能力了而是复杂 Office 自动化能力。数据清洗、图表生成、分析归纳、汇报整理这一整条链路它都能继续往下做多轮修改之后结构也没有明显散掉。放到真实办公场景里这种表现比单独会做 Excel、会写报告更有参考价值因为它开始覆盖的是更完整的知识工作流程。从能力边界来看M2.7 的能力已经不只是停留在办公整理层面。其不仅能完整落地企业经营分析全链路任务并且对于资料归纳、研究链路梳理、专业分析与结果汇总这类更高阶的知识工作也能轻松完成。最佳 Cowork Agent 来了吗这一轮测下来M2.7 给我最明显的感觉已经不只是编程能力继续往上走了一点真正拉开差距的地方在于它对智能体工作流的支持更完整了。尤其放进 OpenClaw 之后这种变化会更明显。任务交过去它不只是给一段回答很多时候是真的能顺着任务往下做过程中也没那么容易散。单看这一点我会直接把 M2.7 放在国内最好 Cowork Agent 的位置上。如果用几句话概括 M2.7 这次最值得看的地方核心还是连续性、稳定性和落地感。不过更值得注意的是它这次已经开始显出自我迭代能力。官方给出的路径很清楚不只是让模型调用 Agent Harness 干活而是让它基于短时记忆、自反馈和自优化去反复调整自己的做事方法。内部脚手架优化里M2.7 可以连续跑超过 100 轮分析失败轨迹、规划改动、修改代码、回跑评测、对比结果再决定保留还是回退内部评测效果提升 30%。放到更重的机器学习任务里它在 MLE Bench Lite 22 个任务上拿到 9 金 5 银 1 铜平均得牌率 66.6%。这说明它已经不只是执行任务也开始参与优化完成任务的路径。当下整个行业都在跟风适配 OpenClaw忙着教模型怎么用好人类打造的工具却很少有人真正去突破模型的能力边界 —— 让模型自己造工具、自己搭框架、自己完成迭代进化。M2.7 自主搭建 Agent Harness 的能力本质上是让模型拥有了自主打造 “任务操作台” 的能力它不再局限于人类给定的工具与框架而是能根据任务需求自主搭建完整的任务执行体系调度多智能体协同作业甚至能通过自反馈、自优化持续迭代这套体系本身。更重要的是它已经深度参与到了 MiniMax 自身的模型研发流程中成为了下一代模型研发的核心参与者真正实现了 “模型训练模型” 的正向循环。这种自我迭代的技术创新不仅让 M2.7 坐稳了国内最好 Cowork Agent 的位置更提前抢占了下一代大模型竞争的核心分水岭开启了大模型自主进化的全新纪元。显然M2.7 更适合那些已经不满足于简单问答的人。独立开发者、全栈工程师、产品型开发者或者本来就会把模型接进自己工作流的人用起来会更容易感受到它的价值。因为这类用户真正关心的从来不是模型会不会说几句聪明话而是能不能把任务拆开、持续推进、出问题后继续修正最后把结果交出来。借着M2.7我们似乎也看到了最强的 Cowork Agent 长什么样子或许在未来我们能看到 AI 能承接更多的任务解决更复杂的任务。如果你当下正在关注 OpenClaw 的生态或是正在寻找一款接入后足够顺手、足够能打、能真正融入工作流的大模型M2.7 绝对值得你亲自上手实测。体验地址如下快来试试吧MiniMax Agentagent.minimaxi.comToken Plan 订阅https://platform.minimaxi.com/subscribe/token-plan
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2427583.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!