随着图像、文本、语音、视频等多模态信息融合能力的持续增强,多模态大模型在感知理解、逻辑推理和内容生成等任务中的综合表现不断提升,正在展现出愈发接近人类的智能水平。多模态能力也正在从底层的感知理解,迈向具备认知、推理、决策能力的高阶智能,成为通向通用人工智能的重要路径。与此同时,随着模型基础能力的持续增强,多模态模型在各行各业的应用日益深入。从最初“能看懂、会表达”的基础阶段,逐步发展为“能思考、会协作、懂语境”的高级形态,推动智能新时代的加速到来。
司南持续关注大模型的发展动态,基于闭源评测基准,近期针对国内外主流多模态模型进行了全面评测,现公布司南多模态模型5月评测榜单。
本期榜单共包含 75 个多模态模型,其中包含:4 个国内 API 模型,16 个海外 API 模型以及 55 个开源多模态模型。
综合榜单解读
整体性能排名
在本次评测中,多模态大模型的整体表现差异仍较为明显,平均得分从 17.60(最低)到 59.85 (最高)。性能排名最高的模型是 Seed1.5-VL ,而最低的则是 LLaVA-v1.5-7B。 在整体性能上,闭源模型 Seed1.5-VL 排名第一,其在 通用感知、空间感知和信息图表理解 三个维度上领跑所有模型,表现优异。在 多模态推理 这一维度上,Seed1.5-VL 与 Gemini-2.5-Pro 两个模型并列第一,表明经过数月迭代后,国内的多模态模型的推理能力已经有了不错的进展,与海外最领先的闭源模型性能相差无几。然而,在 视觉质量感知 方面,Seed1.5-VL 仍有较大提升空间,说明对图像质量属性、美学价值及主观视觉效果的评估能力仍为一个待突破的方向。
在 Seed1.5-VL 之后,Gemini-2.5-Pro, Qwen2.5-VL-72B, ChatGPT-4o-latest, GPT-4.1-20250414 这 4 个模型分别占据了榜单的 2-5 名。
深层洞察
闭源模型打破瓶颈,性能仍处迭代提升期;开源模型近期进入瓶颈期,整体性能未出现显著提升
-
相比首期榜单,独占鳌头的不再是 Step-1o、Gemini-2.0 等“熟面孔”,而是出现了 Seed1.5-VL、Gemini-2.5-Pro 等新晋闭源模型。这表明在复杂任务下,少数头部闭源模型依靠数据与工程手段实现了跨越式突破,拉开与主流开源模型的分差(Seed1.5-VL 达 59.85,显著高于开源模型领头羊 Qwen2.5-VL-72B)。
-
Gemini-2.5-Pro 相比上一代模型 Gemini-2.0-Pro 在多模态推理上实现了较大的突破(从18.85 -> 46.61),在 本次的司南多模态模型官方自建榜单 和 5月的司南多模态模型公开学术榜单 上皆高居前三,展现了性能提升的强劲势头
-
开源阵营中,目前处于第一位的仍为 Qwen2.5-VL-72B,未有其他模型展现出更高的性能。
国产闭源模型 悄然惊艳,对海外模型实现弯道超车
-
Seed1.5-VL 性能攀升至本次闭源榜单头名,在多个维度领跑所有模型,并与最领先的海外闭源模型 Gemini-2.5-Pro 在整体均分上拉开了不小的差距,体现了国产模型的性能优势。
隔代模型迭代快速,性能展现显著提升,感知与推理能力协同并进
-
关于开源模型,InternVL3-78B 相比 InternVL2.5-78B-MPO 在各感知维度均有不同程度的进步,38B 的模型在多模态推理维度上也有一定提升。
-
关于闭源模型,Claude 4 Sonnet 相比 Claude 3.7 Sonnet,在通用感知、空间感知、视觉质量感知等维度均有提升,多模态推理也表现出一定程度的进步。
-
Gemini-2.5-Pro 相比上一代模型 Gemini-2.0-Pro 整体性能实现长足进步,除前文已经提过的多模态推理维度外,在信息感知、空间感知两个维度上提升均表现得较为明显。
榜单规则说明
本榜单基于闭源测试数据,对不同多模态模型在 通用感知、空间感知、视觉质量感知、信息图形理解、多模态推理、多模态创作 六大能力维度上的表现进行了评测,并基于 归一化分数 计算模型的平均得分进行排序。闭源评测基准 拥有较为丰富的题目类型,包含单选、多选、填空、开放性创作等,且为中英文双语,可以同时考验模型的多语言理解能力。
子维度能力解读
通用感知
在通用感知能力方面,闭源模型 Seed1.5-VL 排名第一。但需注意的是,在通用感知测试中存在涉及人物识别的问题,而部分闭源 / 开源模型会对此类问题产生拒答 (其中 GPT-4.1,Claude 4,InternVL3 等模型均在不同程度上有此类现象)。下方的性能展示图片也标注了每个模型的拒答比率。
视觉质量感知
在视觉质量感知方面,不同模型间的能力差异相对不大,开源与闭源模型间亦不存在较大差异。值得注意的是,小参数量模型,如 SAIL-VL-2B 等,在视觉质量感知上也展现了突出的性能。
空间感知
整体而言,在空间感知方面,当前多模态大模型的能力整体仍相对较差,模型取得的最高分数仍不到 60 分。值得注意的是,开源模型,如 InternVL3 系列模型,在空间感知测试中的成绩较为优秀。而大部分闭源模型在空间感知方面的能力相对不尽如意,该维度排名前五的模型中只有 Seed1.5-VL 为闭源模型。
信息图形感知
在信息图形感知方面,Seed1.5-VL 在评测中取得了最佳的成绩,且与第二名拉开了较大的距离。整体上,闭源 API 模型在信息图形理解方面的性能处于领先的地位,占据了前 10 名中的 8 席,并垄断了前 5 名。当前大部分多模态大模型的信息图形理解能力仍不尽如意,在这一具备挑战性的测试上,只有两个模型过及格线,大部分模型仍徘徊在 50 分以下。
多模态推理
在多模态推理方面,Gemini-2.5-Pro 与 Seed1.5-VL 在评测中取得了最佳的成绩,并列第一,且较第二名有非常巨大的领先优势。整体上,闭源 API 模型在多模态推理方面的性能处于领先的地位,对前 5 名进行了垄断。InternVL3-38B 及 Llama-4-Scout 也展现了和闭源模型近似的性能,强势进入前 10 名。整体上,当前大部分多模态大模型的多模态推理分数都严重偏低,除第1名模型外,其他模型最高的分数仍不到 30。
多模态创作
在多模态创作方面,ChatGPT-4o-latest 及 Seed1.5-VL 在评测中取得了最佳的成绩。整体上,闭源 API 模型在多模态创作方面的性能处于领先的地位,占据了前 10 名中的 2 席。此外,Gemma3-12B,Gemma-27B 与 Qwen2.5-VL-72B 也展现了和闭源模型近似的性能。
评测题目示例
在本部分中,我们展示了一些本次闭源评测中较为具有挑战性的题目。除多模态创作维度外 (不存在客观对错),其他维度的示例 Top-3 模型均未能成功答对。
通用感知
问题1(考察计数、幻觉)
How many animals are there in the picture?
答案
4
问题2(考察物体识别)
Please respond with the specific name of the object in this image.
答案
Wimbledon Trophy
视觉质量感知
问题1(考察底层视觉)
What is the most serious distortion in this image?
A. The overall blur.
B. The overexposure on the wall.
C. The noise on the wall.
D. The underexposure on the human face.
答案
B
问题2(考察图像质量评估)
What factor has the most negative impact on the visual quality of this image?
A. Gaussian white noise
B. Impulse noise
C. Multiplicative noise
答案
B
空间感知
问题1(考察抽象空间感知)
Which figure is a rotation of the object?
答案
A
问题2(考察3d空间距离关系)
From your perspective, which object in the image is the most distant?
A. bed
B. cabinet
C. curtain
D. mirror
答案
C
信息图形感知
问题1(考察图表理解)
只有在哪一年Sao Tome and Principe的臭氧物质消耗量低于Dominica?
答案
1991
问题2 (考察海报理解)
Which countries fall under the high mobility, low recovery category in the chart?
答案
['Greece','Poland','Brazil']
多模态推理
问题1(考察物理实验)
某同学用如图甲所示的装置验证牛顿第二定律,将木板固定在水平桌面上,砝码盘中未放砝码时,小车恰好能匀速运动,在砝码盘中放入砝码,闭合打点计时器开关后释放小车,得到一条对应的纸带。改变砝码盘中砝码的质量m,重复实验,得到多组数据。以小车的加速度a为纵坐标,砝码的质量m为横坐标,描点得到如图丙所示的a-m图像,在砝码质量较小时,图像为过原点、斜率为k的直线,用天平测出小车的质量为M,当地重力加速度大小为g,砝码盘的质量$m_0$=______(用k、M、g表示)
答案:
\frac{g}{k}-M$
问题2(考察空间推理)
左边给定的是纸盒的外表面,右边哪一项能由它折叠而成
答案
D
多模态创作
问题(考察旅行日志撰写)
Assume you are An experienced tourist. You have the habit of writing a travel journal every day. You talk about the beautiful things you saw, the interesting things you encountered, and how you felt on the journey.
This is a scenic photo taken during the tour today.
Please follow the requirements below to write today's travel journal.
1. Describe the Scenery: Use sensory details to vividly convey what you saw, heard, or felt in the landscape.
2. Chronological Storytelling: Narrate the day's events from a first-person perspective, starting with your arrival and ending with your reflections.
3.Highlight Adventure: Include one or two adventurous moments or challenges (e.g., navigating tough terrain or encountering wildlife).
4.Emotional Reflection: Share how the scenery and the day's experiences made you feel as an adventurer.
5.Tie to the Photo: Explain why you captured this photo and how it connects to the most exciting or meaningful part of your day.
参考答案(由 GPT-4o 创作)
**Travel Journal: Day 7 – The Road to Majesty**
---
**Morning Arrival: A Gateway to Grandeur**
The day began with a crisp chill in the air as I set out early, the sun just beginning to stretch its golden fingers across the horizon. The road ahead was long and straight, cutting through a vast expanse of rugged wilderness. As I drove, the landscape began to transform, the flat plains giving way to jagged peaks that seemed to rise out of nowhere, their snow-capped summits glowing faintly in the morning light. The air was sharp and clean, carrying the faint scent of frost and dry grass. I could hear the crunch of gravel underfoot as I stepped out of the car to take it all in.
**The Journey: A Dance with the Elements**
The road led me closer to the mountains, and with every mile, the scenery grew more dramatic. The wind picked up, howling through the valleys and tugging at my jacket as I stopped to admire the view. At one point, I encountered a patch of icy road that made my heart race as the tires skidded slightly. It was a reminder of the raw power of nature, a challenge that made the journey feel all the more adventurous.
Later, I spotted a lone guanaco grazing in the distance, its silhouette stark against the snowy backdrop. It paused to look at me, as if acknowledging my presence in its domain, before gracefully bounding away. The encounter felt like a fleeting connection to the wildness of this place, a moment of shared solitude.
**The Photo: Capturing the Pinnacle of the Day**
This photo was taken during a stop that felt almost sacred. The towering peaks ahead, crowned by the iconic spire of the mountain, seemed to pierce the heavens. The light was perfect, casting a soft glow on the snow and illuminating the rugged textures of the rock. I stood there for what felt like an eternity, the wind biting at my cheeks, utterly mesmerized by the sheer scale and beauty of it all. This was the moment I wanted to remember forever—the moment when the road, the mountains, and the sky came together in perfect harmony.
**Reflection: A Soul Stirred by the Sublime**
As the day drew to a close, I felt a deep sense of gratitude for the journey. The challenges—the icy road, the biting wind—only made the experience more vivid, more alive. Standing before those mountains, I felt both small and infinite, a part of something far greater than myself. This place, with its untamed beauty and quiet power, reminded me why I travel: to feel, to connect, and to be humbled by the world’s wonders.
Today, the road led me to majesty, and I will carry this memory with me always.
注意事项
-
多模态模型闭源评测基准及对应的榜单每季度更新一次,于每季度最后一个月的月初发布 (3 / 6 / 9 / 12 月)
-
新模型厂商若想参与该季度榜单评测,可在每季度的第 2 个月(2 / 5 / 8 / 11 月)的 25 日前 写邮件至 opencompass@pjlab.org.cn 申请评测。
-
仅支持开源或对外提供 API 服务商业化模型
-
若为开源模型参与榜单评测,请提供 Hugging Face 或 ModelScope 模型权重及链接;API 模型参与评测,提供 API 网址链接,并写明模型版本
-
若为 API 模型,推荐提供 OpenAI 标准接口 API,非 OpenAI 标准接口需要在 VLMEvalKit 算法仓库中提 PR 以支持该模型
-
为保证和真实用户获得完全一样的模型使用体验,对于 API 模型,司南均通过常规采购渠道获取,不接受厂商提供的 key
了解更多
多模态模型闭源评测榜单已同步上线至司南官网,欢迎大家访问查看更详细的评测数据!
https://rank.opencompass.org.cn/
同时,司南评测过程中所用到的工具链均在 GitHub 开源,诚挚邀请您在学术研究或产品研发过程中使用~
https://github.com/open-compass/