第一部分:模型很强,但为什么还是干不好活?
一个真实的失败现场2025年,某创业公司的技术负责人李明遇到了一件让他困惑的事。他订阅了 Claude Pro,GPT-4o 的 API key 也有,SWE-bench 排行榜上的数字他比谁都清楚——最强的 coding agent 在 Verified 数据集上已经能拿到 50-60% 的通过率。他觉得时机成熟了,可以放手让 AI agent 帮他改一个真实的项目。他信心满满地给 agent 下达了任务:“给用户模块加个搜索功能”。agent 跑了 20 分钟,花了 9 美元,然后自信满满地报告"完成了"。李明打开代码一看,血压上来了:搜索功能确实加了,但测试全挂了用的是项目里已经废弃的旧版 SQLAlchemy 语法API 端点没走团队统一要求的 OAuth 2.0 认证端点实际有运行时错误,根本跑不起来李明的第一反应是什么?“这模型不行,得换一个更贵的。”且慢。同一匹马,两种命运Anthropic 做过一个对照实验。同样的 prompt:“做一个 2D 复古游戏编辑器”。同样的模型:Opus 4.5。第一次,让它裸跑。20 分钟,花了 9 美元。游戏核心功能根本跑不起来。第二次,给它配上完整的 harness——planner + generator + evaluator 三 agent 架构。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2490100.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!