第一部分：模型很强，但为什么还是干不好活？

news2026/4/6 19:37:03

一个真实的失败现场2025年，某创业公司的技术负责人李明遇到了一件让他困惑的事。他订阅了 Claude Pro，GPT-4o 的 API key 也有，SWE-bench 排行榜上的数字他比谁都清楚——最强的 coding agent 在 Verified 数据集上已经能拿到 50-60% 的通过率。他觉得时机成熟了，可以放手让 AI agent 帮他改一个真实的项目。他信心满满地给 agent 下达了任务：“给用户模块加个搜索功能”。agent 跑了 20 分钟，花了 9 美元，然后自信满满地报告"完成了"。李明打开代码一看，血压上来了：搜索功能确实加了，但测试全挂了用的是项目里已经废弃的旧版 SQLAlchemy 语法API 端点没走团队统一要求的 OAuth 2.0 认证端点实际有运行时错误，根本跑不起来李明的第一反应是什么？“这模型不行，得换一个更贵的。”且慢。同一匹马，两种命运Anthropic 做过一个对照实验。同样的 prompt：“做一个 2D 复古游戏编辑器”。同样的模型：Opus 4.5。第一次，让它裸跑。20 分钟，花了 9 美元。游戏核心功能根本跑不起来。第二次，给它配上完整的 harness——planner + generator + evaluator 三 agent 架构。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2490100.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！