2025_NIPS_CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models
一、文章主要内容本文提出了首个用于系统评估大型视觉语言模型(VLMs)遥感能力的基准测试集CHOICE,聚焦“感知”和“推理”两大核心维度,细化为6个二级维度和23个三级任务,涵盖10,507个高质量问题。数据源自全球50个城市的多源卫星影像,通过标签驱动、基础模型辅助、人类与GPT-4协作三种方式构建,全程避免公开数据集以杜绝数据泄露。基于CHOICE对24个主流VLMs(通用域、遥感专用、闭源/开源)的评估显示,通用域VLMs在部分任务上表现优于遥感专用模型,开源模型具备替代闭源模型的潜力,但所有模型在细粒度感知和复杂推理任务上仍有显著不足。二、核心创新点首个层级化遥感基准:首次将VLMs遥感能力拆解为“感知-推理”二级核心维度,进一步细化为23个针对性任务,覆盖图像级理解、目标识别、变化检测、常识推理等关键场景。无数据泄露的高质量数据:所有10,507个问题均基于全新采集的全球卫星影像构建,排除公开数据集,通过多阶段人工质控确保准确性和客观性。多模态与多格式适配:支持选择题、边界框坐标、分割掩码等多种输出格式,适配LLM-based和CLIP-based两类VLMs的评估需求。全面的模型评估与洞察:首次系统评估24个主流VLMs,揭示了遥感专用模型的领域知识优势、通用域模型的泛化能力,以及所有模型在细粒度感知和推理上的核心瓶颈。三、关键部
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2512330.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!