Claude Opus 4.7 发布:更像一个真正能干活的模型了
Claude Opus 4.7 发布更像一个真正能干活的模型了Opus 4.7终于发布了。官方把它定位为“目前能力最强的通用可用模型”重点强化了编码、Agent 长程任务、视觉、多步复杂工作流、记忆相关任务。虽然这一次模型升级了但是价格很公道。新版本的价格维持在与 Opus 4.6 相同的输入每百万 token 5 美元、输出每百万 token 25 美元。Opus 4.7 发布时同时带上了自动识别并拦截高风险网络安全用途请求的防护措施会帮助他们为未来更强的“Mythos 级”模型做广泛发布准备。从整体的效果来看它具备了四个方面的优点指令遵循更强。一些为早期模型编写的提示词放到 Opus 4.7 上可能会出现意料之外的结果。因为旧模型往往会宽松理解甚至直接忽略部分指令而 Opus 4.7 更倾向于严格按字面执行所以提示词也需要随之调整。多模态能力进一步提升。Opus 4.7 对高分辨率图像的处理更强长边最高支持2576 像素约375 万像素是此前 Claude 模型的三倍以上。这让它更适合处理依赖细节的视觉任务比如读取密集截图、解析复杂图表以及需要像素级定位的场景。更贴近真实工作。除了在财务代理评测中取得领先表现Anthropic 的内部测试也显示Opus 4.7 相比 Opus 4.6 在分析严谨性、模型构建、演示质量和跨任务整合上都有提升。同时它也是第三方高价值知识工作评测GDPval-AA的最新最佳结果。记忆能力更实用。Opus 4.7 在基于文件系统的记忆使用上表现更好能够在长周期、多轮任务中保留关键笔记并在新任务中继续利用这些信息从而减少反复补充背景的成本。在视觉识别能力上它能看到更高分辨率的图像。在完成专业任务时它更具品味和创意制作出更高质量的界面、幻灯片和文档。虽然它的能力还没有Claude Mythos Preview强但在多个基准测试中表现优于Opus 4.6从上面这个效果来看。它的提升重点集中在编程、工具调用、视觉推理、Agent 长链路执行更强第一4.7 相比 4.6最大提升就是“Agentic coding”。SWE-bench Pro53.4% → 64.3%SWE-bench Verified80.8% → 87.6%在真实软件工程任务上有比较明显的一档升级。Anthropic 官方也明确把 Opus 4.7 的主要升级点描述为在高级软件工程、复杂长任务、需要较少监督的编码工作上更强。第二它在终端型 Agent 执行上也更稳了但还不是全场第一。TerminalBench 2.0 这一项里图上是Opus 4.769.4%GPT-5.475.1%Mythos Preview82.0%这意味着 Opus 4.7 的确适合做“会写代码、会跑命令、会串工具”的执行型 Agent但在终端实操闭环这件事上至少还是不能够超越自己的Mythos 模型。搞得我以为Anthropic 一直在宣传Mythos 第三它在工具使用能力上进步也是有的。图里 MCP-Atlas 这一项Opus 4.777.3%Opus 4.675.8%GPT-5.468.1%Gemini 3.1 Pro73.9%4.7 更像一个会调工具干活的模型。Claude系列模型一直在强化 tool use、computer use、agent workflow 能力。官方模型总览也把 Claude 系列定位成适合推理、视觉分析、工具使用、computer use的一类模型。其他方面的优化文档推理上和长上下文推理上Opus4.7都是最高的。这意味着它真正具备了在超长材料中持续抓住重点、理清结构并输出结论的能力。面对长篇报告、复杂代码库、多轮对话记录、冗长合同或研究资料时Opus 4.7 能更稳定地保持上下文一致性不容易中途跑偏也更擅长从分散信息里抽取关键线索完成跨段落、跨章节、跨任务的综合推理。还有一个是迁移带来的影响~Opus 4.7 是 Opus 4.6 的直接升级版但有两点变化值得提前关注因为都会影响 Token 消耗。首先Opus 4.7 使用了新的分词器文本处理方式更优化但同样内容对应的 Token 数也可能更高通常约为1.0 到 1.35 倍具体取决于内容类型。其次Opus 4.7 在高努力等级下会进行更多思考尤其是在智能体场景的后期回合。这提升了复杂任务的可靠性但也会带来更多输出 Token。不过用户仍然可以通过多种方式控制消耗比如调整 effort 参数、设置任务预算或直接要求模型更简洁。在 Anthropic 的内部测试中整体结果仍然是正向可控的虽然 Token 使用有所变化但各努力等级下的编码效率都有提升。真正迁移时最好还是结合真实流量进行测量并参考官方迁移指南完成参数调整。会检查自己答案的模型Opus 4.7 补上了一个过去不算突出的能力先自我验证再汇报结果。如果发现问题它会先在内部修正再把答案交给你。听上去只是多了一步检查但放到智能体长时间自主运行的场景里这一步非常关键。过去让 Claude 连续跑几个小时往往到最后才发现中间某个环节出了问题现在它更有能力在过程里自己发现、自己纠偏。这意味着很多原本必须人工兜底的时刻又往后退了一层。从实际效果看这种变化已经开始体现价值。Rakuten 在生产任务中使用 Opus 4.7 后问题解决率提升了3 倍代码质量也出现了非常明显的提升。写在最后如果说 Opus 4.7 最大的价值是什么是它开始更像一个真正能干活的模型了。这次升级更适合进入真实工作流代码写得更稳工具调用更顺自我检查也更强。当然能力更强的另一面是 Token 消耗和使用方式也变得更值得关注。对于真正要把它接进生产环境的人来说这次升级不只是换个版本号而是提示词、预算控制和任务设计都要一起调整。整体来看Opus 4.7 很可能是 Anthropic 朝着实用型 Agent 模型迈出的关键一步。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2549714.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!