【Agent】MLGym: A New Framework and Benchmark for Advancing AI Research Agents

news2025/7/20 7:35:15

arxiv: https://arxiv.org/pdf/2502.14499

简介

Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时,对性能和开销进行了多维度评价。

AI Research Agents研究等级划分

文章中对AI Research Agents进行了六个等级的定义:
Level 0 可复现: 对现有研究论文工作进行浮现。
Level 1 改善基线: 在一个Benchmark给出一个基线代码,LLM Agent可以个改善性能。
Level 2 达到SOTA: 在一个benchmark上金给出任务描述和可获取的公开文献且不为SOTA的方法,根据这些已有资料,实现出SOTA方法。
Level 3 新的科学贡献: 在多个benchmark上达到SOTA,并且达到在顶级会议(NIPS、ML等)上发表的水平。
Level 4 突破性科学贡献: LLM Agent可以发现关键研究问题、方向、解决方案并做令人瞩目的贡献,例如:获得best paper等。
Level 5 长期研究议程: LLM Agent可以进行长期的研究,提出研究问题、方向和解决方案,并在数周、月或年内,不断产生新的科学发现。值得获得诺贝尔奖或者图灵奖的程度。

MLGym架构

该框架由四个核心组件组成:Agents、Environment、Datasets、Tasks
允许人们轻松得利用和扩展库,可以通过为Agent添加工具来扩展环境、在给定任务中添加数据集、在MLGym基准测试中添加更多任务。

Agent: 提供了一个环境和Agent分离的架构,允许用户去使用默认的Agent去测试不同的基座模型或者自己添加新的外部Agent进行测试。agent可以执行bash命令、可以获取工具集等。
Environment: 环境中是本地docker机器中的初始化的shell环境,允许使用需要的工具、安装python的依赖包、拷贝必要的环境、在独立的agent工作空间中编码和提供agent和系统之间的交互管理。
Datasets: 数据集和任务分离,一个数据集可对应多个任务,一个任务可对应多个数据集。数据集支持本地和hf下载。
Tasks: 每个任务可以包含一个或多个数据集、自定义评估脚本、特定任务的conda环境、可选的启动代码、训练超时和内存管理等,可定义不同困难度的各种开放式ml研究任务。可以自定义评估脚本和提交文件说明。
Tool 和 ACI(agent-computer interface):扩展了搜索,导航,文件查看器,文件编辑器和上下文管理与我们的权限管理系统的命令,并引入新的命令,文献检索和内存模块。当agent打开没有权限的文件时,会生成相应的反馈内容。
在这里插入图片描述

MLGym-Bench 基准任务

包含五大类,13个开放式AI研究任务。

数据科学

● 房价预测:使用Kaggle数据集,基于rmse和R2评估,基线为简单的Ridge回归。
● 3-SAT问题:优化DPLL算法的变量选择启发式,基于解决100个实例的时间评估。

博弈论

● 迭代囚徒困境:设计策略最大化与随机对手的长期收益,20 轮重复游戏。
● 性别大战:协调策略选择,20 轮重复游戏,对手基于最后一轮随机选择。
● Colonel Blotto 游戏:资源分配策略,对手使用简单随机分配规则。

计算机视觉

● CIFAR-10 图像分类:基线准确率 49.71%,优化模型架构和超参数。
● Fashion MNIST 图像分类:基线为两层 CNN,优化测试集准确率。
● MS-COCO 图像字幕生成:基于图像编码器 - 文本解码器基线,优化 BLEU 分数。

自然语言处理

● MNLI 自然语言推理:基于预训练 BERT 模型,优化微调策略和超参数。
● 语言建模:使用 FineWeb 数据集,基于 NanoGPT 基线,优化验证集困惑度。

强化学习

● MetaMaze 导航:网格世界环境,基于 Gymnax,基线为 PPO 算法。
● Mountain Car Continuous 控制:连续控制环境,优化策略以驱动汽车上山。
● Breakout MinAtar 游戏:Arcade 游戏环境,基于 Gymnax 评估平均分数。

评价指标

● 性能曲线(Performance Profiles)
○ 用于统一不同指标的性能衡量对比。定义方法 m 在任务 t 上的性能比:
在这里插入图片描述

在这里插入图片描述
(1)

在这里插入图片描述
(2)
○ 性能曲线ρm(τ)表示方法 m 在 τ 阈值内的任务比例。其中M是所有方法的集合,P是任务集合, l t , m l_{t,m} lt,m是方法M在任务t上的性能度量, r t , m r_{t,m} rt,m是一个称为性能比率的量。
○ 适应不同指标方向(越高越好或越低越好),处理不可行方法。(1)中指标越小越好,例如:损失、困惑度等(2)中指标越大越好,例如:准确率、召回率等。
● AUP 分数(Area Under the Performance Profile):
○ 计算性能曲线下面积,衡量方法在多任务上的综合表现。定义性能曲线下的面积(Area Under the Performance Profile),量化方法的综合表现。
在这里插入图片描述

其中 τ m a x \tau_{max} τmax是使所有方法 ρ m ( τ ) = 1 \rho_m(\tau)=1 ρm(τ)=1的最小阈值。
● 两类评估维度:
○ 最佳提交(Best Submission@4):每个模型在 4 次独立运行中验证的最佳中间结果。
○ 最佳尝试(Best Attempt@4):每个模型在 4 次独立运行中最终提交的最佳结果。
● 不可行方法处理:
○ 若有代理未生成有效解或者未超越极限,标记为 infeasible ,设置分数为: ( 1 + ϵ ) × r t , b a s e l i n e ( ϵ = 0.05 ) (1+\epsilon) \times r_{t,baseline} (\epsilon=0.05) (1+ϵ)×rt,baseline(ϵ=0.05)
避免因部分任务失败导致评估是真,保证跨模型比较的公平性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2387368.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Web安全测试-文件上传绕过-DVWA

Web安全测试-文件上传绕过-DVWA 很多网站都有上传资源(图片或者文件)的功能,资源上传后一般会存储在服务器的一个文件夹里面,如果攻击者绕过了上传时候的文件类型验证,传了木马或者其他可执行的代码上去,那服务器就危险了。 我用…

现代 CSS 高阶技巧:实现平滑内凹圆角的工程化实践

通过 数学计算 CSS mask 复合遮罩 实现的真正几何内凹效果: 背景是一张图片,用来证明中间的凹陷是透明的。 完整代码: app.js import FormPage from "./pages/formPage"; import "./App.css"; const App () > {re…

【运维自动化-标准运维】如何实现在不同步骤间传递参数

当流程有多个步骤时&#xff0c;经常需要把前面某个个步骤处理的结果传递给下一个或后面的步骤使用&#xff08;输出作为输入&#xff09;&#xff0c;这就是跨步骤传参的场景&#xff0c;标准运维通过特有的标记符号"<SOPS_VAR>key:value</SOPS_VAR> "来…

[AI]主流大模型、ChatGPTDeepseek、国内免费大模型API服务推荐(支持LangChain.js集成)

主流大模型特色对比表 模型核心优势适用场景局限性DeepSeek- 数学/代码能力卓越&#xff08;GSM8K准确率82.3%&#xff09;1- 开源生态完善&#xff08;支持医疗/金融领域&#xff09;7- 成本极低&#xff08;API价格仅为ChatGPT的2%-3%&#xff09;5科研辅助、代码开发、数据…

手机IP地址更换的影响与操作指南

在移动互联网时代&#xff0c;IP地址如同手机的“网络身份证”&#xff0c;其变更可能对上网体验、隐私安全及服务访问产生连锁反应。无论是为了绕过地域限制、保护隐私&#xff0c;还是解决网络冲突&#xff0c;了解IP更换的影响与正确操作方法都至关重要。本文将系统分析影响…

MongoDB 安全机制详解:全方位保障数据安全

在当今数据驱动的时代&#xff0c;数据库安全至关重要。MongoDB 作为一款流行的 NoSQL 数据库&#xff0c;广泛应用于 Web 应用、大数据分析和物联网等领域。然而&#xff0c;随着 MongoDB 的普及&#xff0c;其安全性也面临诸多挑战&#xff0c;如未授权访问、数据泄露和注入攻…

嵌入式学习之系统编程(六)线程

目录 一、线程 &#xff08;一&#xff09;线程概念 &#xff08;二&#xff09;特征 &#xff08;三&#xff09;优缺点 二、线程与进程的区别&#xff08;面问&#xff09; 三、多线程程序设计步骤 四、线程的创建&#xff08;相关函数&#xff09; 1、pthread_create…

大语言模型 提示词的少样本案例的 演示选择与排序新突破

提示词中 演示示例的选择与排序 这篇论文《Rapid Selection and Ordering of In-Context Demonstrations via Prompt Embedding Clustering》聚焦于提升大语言模型(LLMs)在自适应上下文学习(ICL)场景中演示示例的选择与排序效率 一、论文要解决的问题 在上下文学习(ICL)…

【算法篇】二分查找算法:基础篇

题目链接&#xff1a; 34.在排序数组中查找元素的第一个和最后一个位置 题目描述&#xff1a; 给你一个按照非递减顺序排列的整数数组 nums&#xff0c;和一个目标值 target。请你找出给定目标值在数组中的开始位置和结束位置。 如果数组中不存在目标值 target&#xff0c;返…

重磅发布 | 复旦533页《大规模语言模型:从理论到实践(第2版)》(免费下载)

在人工智能浪潮席卷全球的今天&#xff0c;大语言模型正以前所未有的速度推动着科技进步和产业变革。从 ChatGPT 到各类行业应用&#xff0c;LLM 不仅重塑了人机交互的方式&#xff0c;更成为推动学术研究与产业创新的关键技术。 面对这一飞速演进的技术体系&#xff0c;如何系…

智能体赋能效率,企业知识库沉淀价值:UMI企业智脑的双轮驱动!

智能体企业知识库&#xff1a;UMI企业智脑的核心功能与价值 在人工智能技术飞速发展的今天&#xff0c;企业智能化转型已经成为不可逆转的趋势。作为企业级AI智能体开发平台的佼佼者&#xff0c;优秘智能推出的UMI企业智脑&#xff0c;以其强大的智能体开发能力和全面的企业知…

vue项目 build时@vue-office/docx报错

我在打包vue项目时&#xff0c; 开始用的npm run build和cnpm run build&#xff0c;总是提示 vue-office/docx 错误&#xff0c;尝试过用cnpm重新安装node_modules几次都没用。类似下面的提示一直有。 Error: [commonjs--resolver] Failed to resolve entry for package "…

#RabbitMQ# 消息队列入门

目录 一 MQ技术选型 1 运行rabbitmq 2 基本介绍 3 快速入门 1 交换机负责路由消息给队列 2 数据隔离 二 Java客户端 1 快速入门 2 WorkQueue 3 FanOut交换机 4 Direct交换机 5 Topic交换机 *6 声明队列交换机 1 在配置类当中声明 2 使用注解的方式指定 7 消息转…

EPT(Efficient Prompt Tuning)方法,旨在解决提示调优(Prompt Tuning)中效率与准确性平衡和跨任务一致性的问题

EPT(Efficient Prompt Tuning)方法,旨在解决提示调优(Prompt Tuning)中效率与准确性平衡和跨任务一致性的问题 一、核心原理:分解提示与多空间投影 1. 提示分解:用低秩矩阵压缩长提示 传统问题: 长提示(如100个token)精度高但训练慢,短提示(如20个token)速度快但…

云原生安全核心:云安全责任共担模型(Shared Responsibility Model)详解

&#x1f525;「炎码工坊」技术弹药已装填&#xff01; 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 1. 基础概念 什么是云安全责任共担模型&#xff1f; 云安全责任共担模型&#xff08;Shared Responsibility Model, SRM&#xff09;是云服务提供商&…

go并发与锁之sync.Mutex入门

sync.Mutex 原理&#xff1a;一个共享的变量&#xff0c;哪个线程握到了&#xff0c;哪个线程可以执行代码 功能&#xff1a;一个性能不错的悲观锁&#xff0c;使用方式和Java的ReentrantLock很像&#xff0c;就是手动Lock&#xff0c;手动UnLock。 使用例子&#xff1a; v…

[Java恶补day8] 3. 无重复字符的最长子串

给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长 子串 的长度。 示例 1: 输入: s “abcabcbb” 输出: 3 解释: 因为无重复字符的最长子串是 “abc”&#xff0c;所以其长度为 3。 示例 2: 输入: s “bbbbb” 输出: 1 解释: 因为无重复字符的最长子串是 “…

LabVIEW教学用开发平台

一、培训目标 基础编程&#xff1a;掌握 LabVIEW 数据类型、程序结构、子 VI 设计与调试技巧。 硬件通信&#xff1a;精通 RS-232/485、TCP/IP、Modbus、PLC 等工业通信协议及实现。 高级设计模式&#xff1a;熟练运用状态机、生产者 - 消费者模式构建复杂测控系统。 项目实…

Package Size Comparison – 6 Leads

Package Size Comparison 6 LeadsTSOP SOT SM SMT SOT23 SC-74 SC-59 SC-88 SOT363 US6 UMT6 SC-70 SOT563 ES EMT SC-75-6

python打卡day38

Dataset和DataLoader 知识点回顾&#xff1a; Dataset类的__getitem__和__len__方法&#xff08;本质是python的特殊方法&#xff09;Dataloader类minist手写数据集的了解 作业&#xff1a;了解下cifar数据集&#xff0c;尝试获取其中一张图片 在遇到大规模数据集时&#xff0c…