codex模拟autosota方案

news2026/4/29 23:38:00

结论先别急着自己构建完整 AutoSOTA agent 系统。你现在最该做的是搭一个AutoSOTA-lite 工作流复现基线 - 生成优化想法 - 实现单个改动 - 跑实验 - 审核有效性 - 记录报告。Agent 可以以后自动化现在最值钱的是评测闭环和科研有效性约束不是 agent 框架本身。我查了一下AutoSOTA 论文把流程拆成三段资源/目标设定、实验评估、反思/构想并用 8 个专门 agent 协作它声称在有代码、成本可控的论文上发现了 105 个超过原方法的结果平均约 5 小时一篇。GitHub 仓库目前更像是“优化结果榜单每篇论文的 OPTIMIZATION.md”不是开箱即用的完整系统。你该怎么做选一篇“有官方代码、数据容易拿、评测命令明确、单次实验不太贵”的论文。不要一开始挑超大模型训练。建一个项目目录固定这些文件paper_card.md论文目标、指标、数据集、基线命令。baseline.md你实际复现出来的结果。ideas.mdAI 生成的优化想法队列。experiments.csv每次实验的配置、结果、耗时、commit。red_lines.md哪些改动算作弊比如数据泄漏、改测试集、改变评测协议。optimization_report.md最后像 AutoSOTA 仓库那样写结果总结。用 Codex 或 Claude Code 先把 baseline 跑通。没跑通之前不要优化。让 Kimi 读论文和相关文献产出“可实验的优化想法”每个想法必须有假设、改哪里、预期收益、风险、实验成本。用 Codex/Claude Code 一次只实现一个想法开分支或至少记录 commit。跑小实验筛选再对最优结果做多 seed、消融、合法性检查。最后写成OPTIMIZATION.md格式参考 AutoSOTA 的单篇报告baseline、final、关键改动、迭代历史、what worked / failed。Agent 还是 Skills我的建议是先写 skills不急着造 agent。更准确地说skills 不应该“喂论文全文”而应该写成可复用操作规程。论文相关内容放进paper_card.mdskill 只规定“每次做这种任务时 AI 应该怎么工作、输出什么格式、不能违反什么”。可以先写 4 个轻量 skillpaper-to-task把论文 repo 变成目标卡片。baseline-repro只负责复现不允许优化。sota-ideator生成优化想法按收益/成本/风险排序。validity-supervisor检查是否作弊、是否改了评测协议、结果是否可复现。你三个会员怎么分工Kimi读长论文、综述、相关工作、生成 idea 池。它适合“大量文本理解”。Claude Code读陌生代码库、理解工程结构、做较大范围代码修改。Codex在本地项目里执行具体改动、跑命令、维护实验记录、把流程沉淀成 skills/scripts。最小可行版本你不需要先做“8 agent 系统”。第一版只要这样Kimi读论文产出 paper_card ideas Codex/Claude复现 baseline Codex/Claude实现一个 idea 本地脚本跑实验并记录 experiments.csv 另一个模型/同模型新上下文做 red-line 审核你决定下一个实验等你已经连续优化了 3-5 篇论文再考虑写调度 agent自动排队实验、监控日志、失败重试、生成报告。那个时候 agent 才有明显收益。资料来源AutoSOTA arXiv 摘要https://arxiv.org/abs/2604.05550AutoSOTA GitHubhttps://github.com/tsinghua-fib-lab/AutoSOTA项目结果页https://tsinghua-fib-lab.github.io/AutoSOTA/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2567009.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！