2025_NIPS_CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models

news2026/4/13 7:44:34

一、文章主要内容本文提出了首个用于系统评估大型视觉语言模型（VLMs）遥感能力的基准测试集CHOICE，聚焦“感知”和“推理”两大核心维度，细化为6个二级维度和23个三级任务，涵盖10,507个高质量问题。数据源自全球50个城市的多源卫星影像，通过标签驱动、基础模型辅助、人类与GPT-4协作三种方式构建，全程避免公开数据集以杜绝数据泄露。基于CHOICE对24个主流VLMs（通用域、遥感专用、闭源/开源）的评估显示，通用域VLMs在部分任务上表现优于遥感专用模型，开源模型具备替代闭源模型的潜力，但所有模型在细粒度感知和复杂推理任务上仍有显著不足。二、核心创新点首个层级化遥感基准：首次将VLMs遥感能力拆解为“感知-推理”二级核心维度，进一步细化为23个针对性任务，覆盖图像级理解、目标识别、变化检测、常识推理等关键场景。无数据泄露的高质量数据：所有10,507个问题均基于全新采集的全球卫星影像构建，排除公开数据集，通过多阶段人工质控确保准确性和客观性。多模态与多格式适配：支持选择题、边界框坐标、分割掩码等多种输出格式，适配LLM-based和CLIP-based两类VLMs的评估需求。全面的模型评估与洞察：首次系统评估24个主流VLMs，揭示了遥感专用模型的领域知识优势、通用域模型的泛化能力，以及所有模型在细粒度感知和推理上的核心瓶颈。三、关键部

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2512330.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！