卡内基梅隆大学等突破：多模态AI实现统一测试基准平台建立突破

news2026/5/20 6:31:23

这项由卡内基梅隆大学、威廉与玛丽学院、奥本大学和威斯康星大学麦迪逊分校联合开展的研究于2026年4月发表论文编号为arXiv:2604.10784有兴趣深入了解的读者可以通过该编号查询完整原文。如果你最近关注过人工智能领域的新闻一定听说过越来越多能看懂图片、写文章、还能帮你修图的AI系统。这些多面手AI学界叫它们统一多模态模型Unified Multimodal Models简称UMM是当前AI研究中最热门的方向之一。然而这个领域有一个让研究者头疼已久的问题每个团队开发出新模型后都用自己的一套标准来测试就像不同学校的老师各自出题、各自评分你根本没法知道A校的优等生和B校的优等生谁更厉害。这项研究的核心贡献就是建了一个统一的考场——TorchUMM。这是业界第一个能把各种不同架构的多模态AI模型放在同一套试卷下统一考核的工具箱。它不仅能评测模型还能分析模型的行为规律甚至支持对模型进行进一步训练。研究团队通过这套工具对十几个主流模型进行了全面测评揭示了一批之前从未被系统性记录过的现象其中最震撼的发现是那些在某个测试上表现突出的模型往往在另一个测试上悄悄翻车了。---一、多模态AI的乱考场问题回到我们熟悉的学校比喻。假设你是一名家长想知道自家孩子和隔壁班孩子谁学得更好但两个班的老师用的是完全不同的题目、不同的评分标准甚至考试时的环境也不一样——有的孩子开卷有的闭卷。在这种情况下你拿到的成绩单根本没有可比性。这正是当前多模态AI评测领域的现状。研究团队在论文中指出不同的模型往往在不同的考卷上被单独测试评测流程、数据预处理方式、甚至接入模型的接口方式都各有差异。更麻烦的是一些模型经过特定训练后在某个特定测试上表现亮眼但这种提升是真实的综合能力提升还是只是对那道特定题目的刷题效果没有统一的框架根本无从判断。研究团队还发现了一个更深层的问题一个模型经过额外训练行话叫后训练后在某些测试上分数提高了却可能在另一些测试上分数悄悄下降了。就像一个学生为了数学竞赛拼命刷题结果语文作文水平退步了。这种此消彼长的现象在现有评测体系下很容易被忽视因为大家只盯着自己擅长的那道题的成绩汇报。正是为了解决这个问题研究团队开发了TorchUMM这套工具。它的设计理念可以用一句话概括所有模型同一套题同一套评分规则同一套环境。---二、TorchUMM是什么它能做什么TorchUMM的结构可以用一栋四层楼的建筑来理解。最底层是基础设施层就像楼房的地基提供了与PyTorch、Hugging Face等主流AI开发库的兼容接口以及分布式训练和统一评分计算等通用功能。在这层地基之上是核心功能层这里住着三类最关键的东西各种AI模型的接入适配器、测试用的数据集和基准以及各种后训练方法。再往上一层是任务执行层提供了图像理解、图像生成、图像编辑三条独立的流水线以及一条跨任务综合评测通道。最顶层是应用接口层用户可以通过简单的命令行或Python代码来调用所有功能测评结果会自动生成报告。目前TorchUMM支持14个主流模型涵盖了从1.3亿参数的轻量小模型到340亿参数的大型模型架构类型跨越了纯自回归一种逐步预测下一个词/像素的方式、纯扩散一种从噪声逐步生成清晰图像的方式以及两者结合的混合架构。这些模型包括Bagel、OmniGen2、Emu3系列、Janus系列、Show-o系列、BLIP3-o、TokenFlow、DeepGen和MMaDA等。在测试内容上TorchUMM整合了12套基准数据集覆盖三大核心能力维度。图像理解方面包含MMMU考察跨学科专业知识推理、MMBench全面多选题测试、MME感知与认知分离测试、MM-Vet复杂开放式推理和MathVista数学图表推理。图像生成方面包含DPG-Bench细节保真度测试、GenEval组合生成测试和WISE世界知识融合测试。图像编辑方面包含GEdit-Bench精细属性修改测试含中英文版本和ImgEdit单轮与多轮编辑一致性测试。此外还有两套跨任务综合基准UEval和Uni-MMMU专门考察模型在需要同时理解和生成的复杂任务上的表现。后训练支持方面TorchUMM目前整合了五种主流方法标准监督微调SFT、交叉推理生成IRG、统一思维链推理UniCoT、重建对齐RecA以及自我博弈训练UniGame。---三、图像生成能力大测评没有全能冠军研究团队将14个模型放在同一套评测流水线下得到了一批颇为出人意料的结果。先说图像生成。DeepGen在GenEval考察能否正确生成两只猫坐在红色椅子上这类需要组合多个要素的图像上拿到了86.59分的最高分在画出正确数量的物体画出指定空间关系这类任务上表现出色。但DeepGen完全不具备图像理解能力它只会画不会看。Emu3.5在WISE测试上遥遥领先得分0.633而最低分的Janus只有0.222两者相差近三倍。WISE考察的是模型能否根据涉及文化常识、地理空间、生物物理化学知识的文字描述生成正确图像这个巨大的分差说明不同模型在把世界知识融入图像这件事上的能力差距极为悬殊。有意思的是OmniGen2和Bagel在DPG-Bench考察细节保真度上的得分非常接近分别是84.51和84.11说明这两个模型在生成精细内容时能力相当。而BLIP3-o只有40亿参数却在GenEval上达到了81.36分超过了70亿参数的Janus-Pro78.92分这说明模型大小不等于能力强——架构设计和训练数据质量的影响往往更加决定性。---四、图像理解能力大测评感知强不代表推理强在图像理解测评中Bagel以全面领先的姿态拿下了几乎所有指标的第一名。在MME感知分考察能否识别图中的物体、文字等基础内容上Bagel拿到1691.5分在MME认知分考察能否根据图像内容进行推理判断上Bagel拿到695.4分而大多数竞争对手的认知分还不到Bagel的一半。在MMMU、MMBench、MM-Vet和MathVista上Bagel同样拔得头筹。不过这里有一个非常值得关注的现象感知分高不等于认知分也高。以Janus-Pro为例它的感知分是1547.9在所有模型中排名靠前但认知分只有293.2跌到了垫底水平。这就好比一个学生眼神极好能看清黑板上写的每一个字但不太能理解这些字连在一起是什么意思。这种看得清但想不明的模式在多个模型上都有体现说明视觉感知能力和高阶推理能力在当前的模型架构中并不是自然捆绑的是两个相对独立的能力模块。更有意思的是理解能力和生成能力之间的张力。Emu3.5在图像生成的WISE测试上遥遥领先却在图像理解的MME感知分上只拿到781.1分是所有具备理解能力的模型中的最低分。这暗示着如果一个模型的架构和训练目标主要针对生成任务进行了优化它理解图像细节的能力很可能会受到牵连。Bagel和OmniGen2则在两个方向上都保持了相对均衡的水平是全能选手的代表。---五、图像编辑能力大测评改得对和改得好是两回事图像编辑是三项能力中最复杂的一项它要求模型既要看懂原图又要理解文字指令还要生成既符合指令又保持原图风格的新图像。研究团队只测试了原生支持编辑能力的模型包括DeepGen、Bagel、OmniGen2和Emu3.5。Emu3.5在编辑任务上的表现最为全面在GEdit-Bench英文和中文版本和ImgEdit含单轮与多轮编辑上均拿到最高分。特别是在多轮编辑相当于用户多次发出修改指令模型需要记住之前所有的修改历史上Emu3.5的优势更加明显4.89分对比Bagel的4.45分和OmniGen2的3.27分。这说明Emu3.5在处理连续对话式编辑任务时具备更强的状态追踪和连贯性维持能力。研究团队在分析中发现了一个贯穿多个模型的共同弱点语义正确性和感知质量是两个可以相互独立的维度。OmniGen2的感知质量分图像看起来是否真实、好看高达7.18但语义正确性分图像是否真的做了用户要求的修改只有6.49差距明显。这就好比一个装修师傅活干得很漂亮刷的墙面光滑锃亮但你让他把白墙刷成蓝色他却刷成了绿色——结果好看但不对。当前多数模型都更擅长维持视觉质量而在精准执行语义修改指令上存在明显短板。跨语言方面DeepGen和Emu3.5在中英文指令下的表现基本一致说明它们的多语言指令理解能力比较稳健。OmniGen2在中文语义正确性上6.25比英文6.49有明显下滑说明其在中文指令理解上还存在对齐不足的问题。Bagel则在中文测试上反而略有提升研究团队推测这可能与Bagel训练数据中中文内容的比例有关。---六、跨任务综合评测现有模型的集体盲区UEval和Uni-MMMU是两套专门为真正统一的多模态模型设计的评测基准它们考察的是那些需要模型同时动用理解和生成能力的复杂任务。结果相当令人意外——即便是Bagel这样在单项测试中表现最强的模型在某些跨任务题目上也几乎完全失灵。以迷宫图像生成为例给模型一道迷宫让它生成对应的解法图Bagel的得分只有0.004约等于零。在滑动拼图经典的数字华容道解题上得分是0.000。相比之下Bagel在拼图重组把打乱的图像碎片正确排列上得到了0.660在科学图表推理上得到了0.592这两类任务的共同点是答案可以通过直接的视觉对应或语义推理得出而不需要对结构状态进行一步一步的迭代操作。这个对比揭示了当前多模态模型的一个根本性限制它们在表示层面上统一了视觉和语言但缺少对中间状态的显式追踪机制、逐步推理能力和可控生成能力。换句话说它们能把很多东西塞进同一个大脑但这个大脑还没有学会一步一步想清楚再做。---七、后训练实验那些教训往往比进步更有价值后训练是指在模型完成基础训练之后针对特定任务或能力进行的进一步优化训练。研究团队用TorchUMM对Bagel、Janus-Pro、OmniGen2、BLIP3-o、TokenFlow和Show-o2等多个模型分别应用了SFT、RecA、UniCoT、IRG和UniGame五种后训练方法然后在生成、理解和编辑三类任务上全面测评得到了一批非常有警示意义的结论。第一个结论是最常用的监督微调SFT并不是一个可靠的全面提升手段。在Bagel上SFT把MMMU的准确率从0.519小幅提升到了0.526看起来有进步但同时把MMBench从0.843降到了0.820MM-Vet从65.9降到了61.2图像生成的WISE分从0.399骤降到0.227。更极端的例子出现在TokenFlow上SFT之后DPG-Bench的得分从71.29跌到了22.16几乎是腰斩而GenEval的分数几乎没有变化。Show-o2经过SFT后三个生成基准指标全线下滑。这说明SFT很容易让模型在某个特定方向上过度学习代价是在其他方向上退步。第二个结论是同一种后训练方法在不同模型上的效果差异极大没有一种方法能稳定地在所有模型上都带来改善。以IRG为例在Bagel上它不仅拉低了生成测试GenEval从78.81降到72.06还严重伤害了理解能力MMMU从0.519降到0.480同时让跨任务评测的UEval分数从30.9跌到了9.1。这种大规模的多方向退步在不使用统一评测框架的情况下很可能不会被发现因为发布者只会挑选表现好的指标汇报。第三个结论是不同能力维度对后训练的敏感度是不同的。图像生成能力最容易被扰动UniGame让Bagel的GenEval从78.81提升到了85.8但同时把DPG-Bench从84.11拉到了65.77一个指标涨、一个指标跌且跌幅更大。图像理解能力相对稳定各种后训练方法对MMMU分数的影响通常在几个百分点以内。图像编辑能力的变化则是混沌的——RecA和UniCoT在GEdit上有小幅改善IRG则带来了明显退步没有一种方法能稳定地推动编辑能力全面提升。这些发现共同指向一个核心观点对多模态模型进行后训练时如果只盯着一两个测试指标看极容易被误导以为某种方法真的在整体上提升了模型能力而实际上只是换了一种偏科方式。---八、架构统一程度越高能力就越强吗研究团队专门针对这个问题设计了一组分析结果打破了一个直觉上很容易接受的假设。三个被拿来对比的模型分别是MMaDA、Show-o2和OmniGen2它们在架构统一程度上呈现出明显的梯度差异。MMaDA的统一程度最高它把文字和图像都处理成同一种标记序列在同一个扩散语言模型框架内完成所有任务理论上是最纯正的统一多模态模型。Show-o2居中保留了统一的标记空间但文字和图像的生成过程走不同的出口。OmniGen2统一程度最低它用一个视觉语言模型来理解输入再驱动一个独立的视觉生成器输出图像是比较模块化的设计。如果统一程度越高意味着能力越强这个假设成立那应该是MMaDA表现最好其次是Show-o2OmniGen2最差。但实际结果恰恰相反。在UEval的两个典型任务上——一个要求模型画出如何画卡通狗的分步骤教程另一个要求模型画出Transformer神经网络架构图——OmniGen2是三者中唯一一个能够认真尝试完成任务的模型得分也最高。在第一个任务上OmniGen2得到0.79分Show-o2只有0.46分MMaDA只有0.29分。在第二个任务上三者都挣扎但OmniGen2给出了一个勉强像样的结构图0.13分而Show-o2只有0.07分MMaDA完全没有产出有效输出0.00分。研究团队在解释这个现象时非常谨慎明确指出这个结果不能简单地理解为统一架构是坏的。这三个模型不仅架构统一程度不同它们还继承了不同的基础模型、经过了不同的训练数据和优化流程。MMaDA基于LLaDA-8B构建Show-o2继承自Qwen2.5-7B-InstructOmniGen2继承自Qwen2.5-3B-Instruct。这些基础的差异本身就会带来能力上的差距。真正值得注意的教训是统一程度作为一个架构特征其实际效果目前还被各种其他因素所掩盖不能单独成为评价模型优劣的可靠依据。---九、统一训练对模型底色的改变研究团队还做了一项更深入的分析当一个多模态模型从某个强基础模型初始化然后经过联合多模态训练之后原来那个基础模型的行为特征还剩下多少研究方法是这样的从MathVista基准中取出200个问题用另一个大型语言模型对每道题生成两个意思完全相同但措辞不同的变体这样每道题就有三个版本。然后让目标模型分别回答这三个版本把答案转换成向量计算三个答案之间的相似程度——如果模型面对措辞不同但意思相同的问题时给出的答案差异很大说明它对这类题目的理解不够稳定如果答案很一致说明它的理解能力比较鲁棒。同时研究团队还深入模型内部每隔五层提取一次中间状态看看模型在思考过程中的一致性。对比了两对组合OmniGen2和它的基础模型Qwen2.5-VL-3B-Instruct统一程度较低的一对以及Show-o2和它的基础模型Qwen2.5-VL-7B-Instruct统一程度较高的一对。结果是OmniGen2的答案一致性分布和内部状态轨迹与它的基础模型几乎完全重叠——换句话说OmniGen2的联合训练对原基础模型的行为影响非常小它的底色基本上被完整保留了下来。Show-o2则不同它的基础模型Qwen2.5-VL-7B-Instruct具有非常稳定、高度一致的答案分布而Show-o2自己的一致性分布要宽散得多说明相同问题换一个说法Show-o2更容易给出不同的答案在内部状态上Show-o2也明显偏离了基础模型的轨迹起点更低中间层的一致性也更差。这个发现揭示了统一训练的一个隐蔽代价越是激进地把多种任务捆绑在一起训练越可能对模型原有的稳定能力造成干扰。适度的模块化可能是在保留原有能力的同时获得多模态扩展能力的更稳妥路径而完全融合的统一训练要发挥出理论上的优势需要足够强的数据和优化配方来抵消跨任务干扰带来的负面影响。---十、TorchUMM的工程设计如何让不同的模型说同一种语言在代码层面TorchUMM的核心抽象是一个叫做BackboneAdapter的协议接口。每一个被支持的模型不管内部架构多复杂都必须实现三个基本方法一个用来加载模型权重一个用来执行推理生成再加上一个模型名称标识符。这就好比不管你家的电器是哪个品牌、什么功能只要插头符合国标就都能插在同一个插座上。在配置系统上TorchUMM采用了三层YAML配置文件的设计。推理配置负责指定模型路径和生成参数比如扩散步骤数、引导强度等评测配置负责把模型和测试基准绑定在一起指定输出目录和评分方式后训练配置则定义训练方法、优化器设置和检查点保存频率。切换模型测试时用户只需要改一行配置文件中的模型名称和路径不需要改任何代码。执行流程上TorchUMM把整个过程分为推理、评测和后训练三个阶段。推理阶段负责把用户的输入图像、文字、任务类型标准化成统一格式然后分发给对应的任务处理器。评测阶段通过命令行工具调用自动加载配置、迭代数据集、保存结构化输出双阶段评测先生成再评分也被以轻量包装器的形式原生支持。后训练阶段的代码与评测代码完全隔离训练完成的检查点可以直接通过修改评测配置的模型路径来进行测试无缝衔接。扩展性方面加入一个新模型只需要实现一个适配器子类并注册加入新的测试基准只需要实现一个数据处理和评分脚本加入新的后训练方法只需要在指定目录下实现训练逻辑并注册入口三件事都不需要触碰框架的核心代码。---说到底TorchUMM这项工作的价值不只是提供了一个测试工具更重要的是它系统性地揭示了一个被整个领域长期忽视的问题当我们宣称某个新方法提升了多模态AI的能力时我们真的测全了吗单项成绩亮眼、整体退步悄无声息的现象在这项研究中出现的频率之高足以让所有人停下来重新思考评测方式的可靠性。这对普通用户的影响可能并不那么直接但对那些依赖AI模型做决策的场景来说意义重大。一个在某项指标上表现优秀但在其他维度上存在隐性退步的模型如果被当作全面进步的成果推向应用可能会带来意料之外的风险。统一评测框架不是锦上添花而是确保研究进展真实可靠的基础设施。这项研究本身也留下了很多开放性问题值得继续探索统一程度更高的架构真的更有潜力吗在控制了基础模型和数据之后单纯的架构统一会带来什么效果有没有一种后训练方法能够在所有维度上都带来稳定提升而不是偏科优化随着TorchUMM的开源研究社区有了一个可以用来回答这些问题的共同平台。感兴趣的读者可以通过arXiv编号2604.10784查阅完整原文或访问GitHub上的AIFrontierLab/TorchUMM项目直接体验这套工具。---QAQ1TorchUMM支持哪些多模态模型具体能做什么测试ATorchUMM目前支持14个主流多模态模型包括Bagel、OmniGen2、Emu3、Emu3.5、Janus系列、Show-o系列、BLIP3-o、TokenFlow、DeepGen和MMaDA。测试内容覆盖图像理解、图像生成和图像编辑三大任务整合了12套基准数据集所有模型在完全相同的环境下统一评测结果可以直接对比。Q2多模态模型做了监督微调之后为什么反而会在某些测试上退步A监督微调让模型在特定任务的训练数据上过度学习相当于一个学生为了应付某类题目反复刷题结果大脑挤掉了其他知识的存储空间。TorchUMM的跨任务评测系统性地记录了这种现象比如Bagel经过SFT后WISE生成分从0.399跌到0.227TokenFlow的DPG-Bench从71.29跌到22.16而在没有统一评测框架时这类退步很容易被研究者忽略。Q3架构统一程度高的多模态模型是否就意味着能力更强ATorchUMM的研究结果表明架构统一程度和实际能力之间没有简单的正比关系。在UEval跨任务测试中架构统一程度最低的OmniGen2反而表现最好统一程度最高的MMaDA表现最差。研究团队指出这与三个模型继承的基础模型不同、训练数据不同有关统一架构的潜在优势目前仍被其他因素所掩盖在严格控制变量之前无法做出确定性结论。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2542490.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！