不卷跑分不养虾,MiniMax M2.7 带来了一个真正能打的 Cowork Agent

news2026/3/19 20:53:01
3月18日晚Minimax 悄悄上了波大分。更新了其最新的M2.7版本并且官方还给出了一个核心定义M2.7是 MiniMax 第一代深度参与自身进化的模型。其不仅在指令遵循、办公协同、Coding 方面有明显提升更重要的是它能够自主搭建 Agent Harness。也就是说它能搭出一套完整的任务框架调用各种技能和工具解决单个模型搞不定的问题思考干活两手抓妥妥的“自我进化”。但这不是光说不练Minimax还甩出了可验证的测试数据。在测试中测试员给它甩在了MLE Lite 22道高难度竞赛中M2.7取得了9金5银1铜的成绩仅次于Opus-4.6、GPT-5.4与Gemini-3.1持平。另外在当下行业最关注的 Agent 真实任务执行能力评测上M2.7 的表现同样出圈。在基于标准化 OpenClaw Agent 测试的 PinchBench 榜单中刚发布的 M2.7 快速登顶以 86.2% 的任务成功率击败英伟达 Nemotron 3拿下了 Best score 榜单的全球第四名仅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6刷新了国内大模型在该榜单的最好成绩。而此次更新仅仅距离 M2.5 过去一个月。接连刷新的榜单、肉眼可见的能力跃升都在印证一件事大模型的能力已经不仅仅局限于答题、写代码的基础能力正在向自主规划、自主迭代进化。尤其是 OpenClaw 爆火后大家更在意的已经不是模型能不能写代码了而是接进真实工作流以后到底好不好用。说白了就是把模型和工具真正接起来跑任务之后它会不会掉链子能不能把事情接着往下做。OpenClaw 本身就是冲着这种用法去的所以现在大家都在找一个更合适的大模型接入。我们第一时间拿到了上手评测的机会。这一次我们核心要验证的只有一件事接入 OpenClaw 之后M2.7 的真实体验到底如何M2.7 到底是不是现在国内最好的 Cowork Agent长链路任务的稳定性才是真分水岭最近 OpenClaw 这波热度大家应该都感受得到。现在模型能接进去真不算新鲜事了真正开始拉开差距的是接进去以后到底好不好使。任务短的时候很多模型都还能装得挺像样一旦开始挂 skills、开始叠约束、开始把流程拉长问题就出来了前面条件没吃透后面补充一句它就乱做到一半直接掉线。OpenClaw 本来就是冲着把模型和工具、会话、任务链路接起来去的所以放在这个环境里测反而更容易看出一个模型到底靠不靠谱。第一个任务是一道约束很多的龙虾活动题预算、人群、渠道、门店承载、风险和备选方案全都提前卡死重点就看它会不会先把条件理清再往下拆。M2.7 这一步给我的感觉还不错没有急着往外发散而是先把约束捞出来再拆任务再给方案这种起手方式就比较让人放心。而这也正是 M2.7 本次升级的核心强化方向 —— 复杂长链路任务的承接与落地实测下来的表现的确不俗。接着我把任务再拉长一点。先给一版基础方案然后一轮一轮往上加条件不能打折、供应链有限、门店人手少、目标人群变了最后再加一个更像真实业务会提的要求希望这套活动下个月还能复用成 SOP。全程下来M2.7 没有出现很多模型常见的 “一加需求就推翻重写” 的问题始终能沿着初始的核心逻辑持续优化迭代这一点对于长流程工作流来说至关重要。第三轮迭代中它出现了短暂的卡顿能看出超长链路中仍有小幅波动但在追问之后它快速补齐了所有内容包括最小可复用版本、标准化执行环节、人工决策节点完整承接没有出现信息遗漏。跑完这两组全链路任务M2.7 在 OpenClaw 里的表现已经非常清晰它最核心的价值不是单轮输出多么惊艳的答案而是任务启动时逻辑清晰、链路拉长后不易散架、多轮迭代中不丢约束。在真实的工作流里这种稳定的持续交付能力远比单轮的华丽输出重要得多。而在复杂长链路任务的承接上M2.7 已经交出了国内最好的 Cowork Agent该有的满分答卷。代码能力全场景验证从 “写代码” 到 “做项目” 的工程化跃升真要看编程能力还是得把项目丢过去。MiniMax 这次公开给出的方向里Coding 的位置明显更靠前。官方数据显示在 SWE-Pro 基准测试中M2.7 得分 56.22%无限接近 Claude Opus 的顶级水平在端到端完整项目交付的 VIBE-Pro 测试中得分 55.6%在复杂工程系统理解的 Terminal Bench 2 测试中得分 57.0%。更重要的是它的能力早已跳出了单纯的代码生成延伸到了日志分析、Bug 定位、故障排障、工程重构等高阶开发领域而这种变化在实测中有着极为直观的体感。在前端测试环节我们给出了一个品牌展示官网的全量开发需求这个任务的难度并非简单的页面拼接 ——它会包含品牌调性、视觉配色、页面节奏、交互动效、粒子特效等多个维度并且多个维度必须同时达标最终产出的才是一个能真正商用的官网。很多模型在这里最容易翻车的。而 M2.7 的表现也超出了我的意料尤其是配合官方 Skill 协同运行时页面的完成度直接拉满完全没有常见的模板化痕迹视觉层次、品牌配色、交互动效完全统一最终交付的是一个可以直接上线使用的完整站点而非零散的代码片段。在后端测试环节我给 M2.7 的不是补几段接口代码的小任务而是一个从零开始往下搭的真实项目。技术栈用的是 Python、FastAPI 和 PostgreSQL里面既有接口、数据模型、鉴权这些基础环节也有迁移、测试、文档和后续排障。这类任务真正难的地方不在代码量而在上下文要一直对得上前面定下来的结构后面每一步都不能乱。 M2.7 这一轮最让人惊喜的一点就是它在这种连续工程任务中更像是资深开发的项目管理思维而非单纯的代码生成工具先搭好完整的项目骨架再逐层补齐数据库设计、业务接口、测试用例、接口文档项目上线跑通后遇到问题还能自主排查、快速修复全程逻辑连贯没有出现任何架构跑偏、上下文脱节的问题。M2.7 这次编程能力最明显的变化不是某个点突然特别炸而是工程感更强了。前端会往展示结果上收后端也能按项目节奏一路往下推。现在模型会写代码已经不稀奇了真正有价值的是项目跑起来之后还能不能继续跟。就这一点看M2.7 已经不只是一个会生成代码的模型了而是在往真正能参与开发流程的 Cowork Agent 方向走。放到国内这批模型里这种工程参与感其实很少见。办公自动化全链路考验覆盖完整知识工作流的协同能力Office 自动化这块我没有拿简单表格来试而是直接上了一条完整链路。先生成一套模拟经营数据再基于数据做复杂金融图表最后把图表和数据整理成网页数据报告。这里测的已经不是会不会写公式而是数据、图表、分析和展示能不能连成一套结果。M2.7 这一轮的表现比较扎实。数据生成不是随便拼数字收入、利润率、现金流、营收这些指标之间有基本逻辑图表也不是简单折线图而是把几个关键经营指标放进同一个分析画面里信息密度和重点都够。继续往下做网页报告时它也没有停在把图贴上去而是把核心结论、风险点和管理建议一起整理出来最后形成的是一份能直接展示的页面不是一堆零散素材。它现在展现出来的已经不是基础表格处理能力了而是复杂 Office 自动化能力。数据清洗、图表生成、分析归纳、汇报整理这一整条链路它都能继续往下做多轮修改之后结构也没有明显散掉。放到真实办公场景里这种表现比单独会做 Excel、会写报告更有参考价值因为它开始覆盖的是更完整的知识工作流程。从能力边界来看M2.7 的能力已经不只是停留在办公整理层面。其不仅能完整落地企业经营分析全链路任务并且对于资料归纳、研究链路梳理、专业分析与结果汇总这类更高阶的知识工作也能轻松完成。最佳 Cowork Agent 来了吗这一轮测下来M2.7 给我最明显的感觉已经不只是编程能力继续往上走了一点真正拉开差距的地方在于它对智能体工作流的支持更完整了。尤其放进 OpenClaw 之后这种变化会更明显。任务交过去它不只是给一段回答很多时候是真的能顺着任务往下做过程中也没那么容易散。单看这一点我会直接把 M2.7 放在国内最好 Cowork Agent 的位置上。如果用几句话概括 M2.7 这次最值得看的地方核心还是连续性、稳定性和落地感。不过更值得注意的是它这次已经开始显出自我迭代能力。官方给出的路径很清楚不只是让模型调用 Agent Harness 干活而是让它基于短时记忆、自反馈和自优化去反复调整自己的做事方法。内部脚手架优化里M2.7 可以连续跑超过 100 轮分析失败轨迹、规划改动、修改代码、回跑评测、对比结果再决定保留还是回退内部评测效果提升 30%。放到更重的机器学习任务里它在 MLE Bench Lite 22 个任务上拿到 9 金 5 银 1 铜平均得牌率 66.6%。这说明它已经不只是执行任务也开始参与优化完成任务的路径。当下整个行业都在跟风适配 OpenClaw忙着教模型怎么用好人类打造的工具却很少有人真正去突破模型的能力边界 —— 让模型自己造工具、自己搭框架、自己完成迭代进化。M2.7 自主搭建 Agent Harness 的能力本质上是让模型拥有了自主打造 “任务操作台” 的能力它不再局限于人类给定的工具与框架而是能根据任务需求自主搭建完整的任务执行体系调度多智能体协同作业甚至能通过自反馈、自优化持续迭代这套体系本身。更重要的是它已经深度参与到了 MiniMax 自身的模型研发流程中成为了下一代模型研发的核心参与者真正实现了 “模型训练模型” 的正向循环。这种自我迭代的技术创新不仅让 M2.7 坐稳了国内最好 Cowork Agent 的位置更提前抢占了下一代大模型竞争的核心分水岭开启了大模型自主进化的全新纪元。显然M2.7 更适合那些已经不满足于简单问答的人。独立开发者、全栈工程师、产品型开发者或者本来就会把模型接进自己工作流的人用起来会更容易感受到它的价值。因为这类用户真正关心的从来不是模型会不会说几句聪明话而是能不能把任务拆开、持续推进、出问题后继续修正最后把结果交出来。借着M2.7我们似乎也看到了最强的 Cowork Agent 长什么样子或许在未来我们能看到 AI 能承接更多的任务解决更复杂的任务。如果你当下正在关注 OpenClaw 的生态或是正在寻找一款接入后足够顺手、足够能打、能真正融入工作流的大模型M2.7 绝对值得你亲自上手实测。体验地址如下快来试试吧MiniMax Agentagent.minimaxi.comToken Plan 订阅https://platform.minimaxi.com/subscribe/token-plan

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2427583.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…