ICLR 2026 | Earth-Agent：地球科学智能体来了！

news2026/5/6 16:46:15

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自遥感与深度学习、机器之心题目Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents会议International Conference on Learning Representations (ICLR 2026)论文https://www.arxiv.org/abs/2509.23141代码https://github.com/opendatalab/Earth-Agent项目https://opendatalab.github.io/Earth-Agent/年份2026单位上海AI Lab中山大学创新点首个统一多模态EO数据的智能体框架Earth-Agent是首个将RGB图像、原始光谱数据(Spectrum)和地球产品数据(Products)统一在单一架构中的地球观测智能体系统突破了现有MLLM仅支持RGB数据的限制。基于MCP的结构化工具生态系统构建了包含104个专业工具的预定义工具生态系统组织为Index、Inversion、Perception、Analysis和Statistics五大工具包支持复杂的多步骤科学分析和量化推理。双层次评估协议提出了同时评估推理轨迹(step-by-step)和最终结果(end-to-end)的双层评估体系不仅关注答案准确性还系统性地评估工具调用顺序、参数正确性等中间推理过程。Earth-Bench基准数据集构建了包含248个专家标注问题、13,729张图像的综合基准每个问题平均需要5.4步推理支持Auto-Planning和Instruction-Following两种查询模式填补了跨模态、多步骤量化分析评估的空白。与以往侧重于对单张或少量遥感影像进行描述Captioning、分类Classification或简单问答VQA 的基准不同的是Earth-Bench 的核心在于评估智能体执行完整地球科学分析工作流的能力。背景地球观测(EO)在城市规划、农业、灾害监测等领域至关重要。近年来多模态大语言模型(MLLM)在遥感感知任务上取得进展但面临显著局限只能处理 RGB 图像面对光谱数据束手无策。只能做少量的图片无法胜任大规模遥感数据语料分析。只能做简单问答缺乏处理复杂、多步骤科学问题的能力。囿于模型预训练所得的静态知识无法调用成熟的专业工具与科学模型体系。这些局限使得现有方法难以支持真实的地球科学工作流程无法处理需要跨模态数据、大规模图像、多步骤推理和量化分析的复杂科学任务。因此亟需一个能够统一处理多模态EO数据、集成结构化工具生态系统、支持复杂多步推理并具备系统性双层评估机制的智能体框架。数据Earth-Bench基准数据集核心数据规模248个专家标注的问题13,729张图像平均每题55.4张最多670张1,345个推理步骤平均每题5.42步最多19步三种数据模态RGB 图像用于场景分类、目标检测、变化检测等感知任务原始光谱数据用于植被监测、温度反演、干旱评估等定量分析地球产品数据用于城市扩张、水体变化、气象趋势等时空分析。数据来源Google Earth Engine、NASA EarthData和公开遥感数据集AID、DIOR、DOTA等任务覆盖14种代表性任务从经典分类检测到复杂的时空量化分析标注内容每个问题包含完整的Python解决方案、分步骤工具调用轨迹JSON格式、每步输入输出参数、最终答案特点首个同时支持跨模态数据、大规模图像处理、多步骤推理和量化分析的地球观测基准并提供完整推理轨迹标注用于双层次评估。以往的 Agent 基准测试陷入了「唯结果论」的陷阱侧重于最终结果的准确性而忽视了对于 Agent 推理轨迹的评估。研究者认为「怎么得出这个结论」的过程和结论本身同样重要因此邀请了一支由遥感专业研究生组成的专家小组针对 Earth-Bench 的每一个问题都进行逐步的解答求得最终结果。他们把每一步调用了什么工具、输入了什么参数、得到了什么中间结果都完整地记录了下来。这就形成了一条条标准的「专家推理轨迹」。接着将专家推理轨迹纳入到了 step-by-step 评估并将最终的答案和效率纳入到了结果的 end-to-end 评估。方法Earth-Agent方法框架1. 整体架构Earth-Agent采用ReAct推理范式将地球观测任务建模为部分可观测马尔可夫决策过程(POMDP)。系统由LLM控制器作为决策核心通过与结构化工具包交互来完成复杂的地球观测分析任务。2. 四步操作循环① 工具调用根据任务目标和当前记忆选择最合适的工具执行② 记忆更新将工具调用和返回结果追加到记忆栈保持完整交互历史③ 推理思考LLM分析更新后的记忆规划下一步行动和工具配置④ 执行动作选择并执行下一个工具调用循环继续直到任务完成这个循环产生完整的工具调用轨迹和最终答案确保推理过程可追溯可复现。3. 五大工具包系统104个专业工具基于模型上下文协议(MCP)构建保证互操作性和可扩展性① Index工具包实现NDVI、NDWI、NBR等常用地球观测指数用于快速环境特征提取② Inversion工具包地球物理参数反演包括地表温度、可降水量、植被含水量、海冰浓度等③ Perception工具包支持场景分类、目标检测、语义分割等视觉感知任务④ Analysis工具包时空推理分析提供趋势检测、季节性分解、变化点分析、空间自相关等⑤ Statistics工具包大规模数据预处理和统计计算支持批量操作、云掩膜、数据聚合等4. 双层次评估协议End-to-End评估任务级Accuracy评估最终答案的正确性Efficiency评估轨迹效率对比专家解决方案的步骤数量Step-by-Step评估轨迹级Tools_any_order检查是否使用了所有必需工具不考虑顺序Tools_in_order评估工具调用是否按正确逻辑顺序执行Tools_exact_match最严格标准要求与专家轨迹完全匹配Parameters验证每个工具的输入输出参数是否正确5. 两种查询模式Auto-Planning自动规划不在Query中提供步骤指导评估智能体自主规划能力Instruction-Following指令遵循在Query中提供步骤指导评估智能体执行专家指令的能力6. 核心技术优势跨模态处理通过工具调用统一处理RGB、光谱数据和地球产品不受模态限制多步骤推理支持平均5.4步、最多19步的复杂分析流程大规模处理单任务可处理数百张图像突破MLLM的输入限制科学量化超越定性描述支持地球物理参数反演和时空统计分析可扩展性基于MCP的模块化设计易于集成新工具和模型可解释性完整记录推理轨迹每步工具调用可追溯验证结果与精度实验设置评估多个闭源模型GPT-5、Gemini-2.5等和开源模型DeepSeek-V3.1、Kimik2、Qwen3等核心结果LLM对比预训练支持工具调用的模型表现最佳。闭源模型最终准确率较高但部分开源模型在工具使用轨迹上表现更优。精确工具匹配和参数执行是主要瓶颈。发现1预训练支持工具调用的模型表现更好相比于没有进行工具调用进行预训练的模型。闭源模型在end-to-end任务级评估的最终准确率更高但DeepSeek-V3.1和Kimik2在step-by-step推理级评估工具使用的准确率更高发现2相比于自主规划模式指令遵循模式提升工具调用准确性但不一定提高最终准确率。发现3模型通常能识别正确的工具集合但往往引入无关的步骤引起级联误差。工具的精确匹配和参数输入是执行地球观测数据分析的关键瓶颈。vs 通用智能体在Earth-Bench-Lite上Earth-Agent在Spectrum、Products、RGB三种模态上均显著优于通用智能体GPT-Agent、Manus等后者缺乏领域工具支持。vs MLLM在分类、检测、分割任务上全面超越现有遥感大模型。现有MLLM缺乏跨任务泛化能力Earth-Agent通过工具调用实现稳健性能。示例「利用 2022 年纽约市 Landsat 8 热成像和反射率数据采用单通道方法基于 NDVI 和热波段 10 估算 LST然后计算夏季和秋季的平均 LST并确定平均差以评估这两个时期之间的季节性温度差值。A. 8.65K B. 10.89K C.12.42K D.14.75K。」可以看到Earth-Bench 的题目不再局限于对于原始地球观测数据进行简单的一步即可完成的描述、分类、计数任务而是强调利用地球科学的知识进行严格的指标计算和时空分析。Earth-Agent 未来还有广阔的发展前景从基石到生态Earth-Agent 只纳入了 104 个专业的地球科学工具 / 专家模型这仅仅是一个起点。Earth-Agent 采用了 MCP 框架可以非常方便地加入新的工具。研究者相信在开放社区的共同努力下Earth-Agent 将成长为一个不断进化、日益强大的地球科学智能体。从评估到训练本篇工作验证了智能体路线在地球科学分析任务中的巨大潜力而没有对 LLM 进行专门的训练或微调。研究者在附录中对于现阶段的 LLM 进行了详细的错误分析发现智能体在与真实操作系统交互时表现出严重的「工具幻觉」和「文件幻觉」它们会调用不存在的工具或试图处理根本不存在的文件。这为将来的训练路线提供指导。从语言到视觉当前 LLM 对于工具的选择依赖于模型的上下文和工具的描述它局限在文本语义的 prompt 提示工程随着 MLLM 的成熟研究者预见下一个突破点让具备视觉能力的模型作为智能体的核心建立在视觉语义的工具感知可能成为突破地球观测数据分析的关键。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2588797.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！