浙大联合腾讯让AI“看懂“三维世界

news2026/5/23 0:52:33

这项由浙江大学、腾讯混元大模型团队、香港科技大学及深圳湾区研究院联合完成的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.15876有兴趣深入了解的读者可通过该编号查询完整论文。当你拿起手机拍下一张客厅照片现在的AI助手能流畅地告诉你照片左边有一张棕色的木质沙发右边是一台黑色电视机——这种对画面内容的描述正是当前视觉语言大模型最拿手的本事。然而如果你接着问它这张沙发离我有多远绝大多数AI会给出一个不靠谱的答案甚至比你随口猜测的结果还要糟糕。这不是因为AI不够聪明而是因为它从未被训练过真正感知空间深度——它的眼睛只是在看颜色和形状从没学会判断远近。这个看似简单的问题背后却牵涉着机器人、自动驾驶、增强现实等一系列前沿技术的核心痛点。这项联合研究正是为了打破这道隔阂提出了一个叫做**DepthVLM**的框架试图让一个视觉语言模型同时具备两种能力既能像现在的AI一样流畅地回答关于图片内容的问题也能像专业测量仪器一样精确给出画面中每一个像素点距离相机的实际距离单位是真实的米。用一个更贴近生活的比方来说以前的AI像是一个博学的导游能滔滔不绝地介绍博物馆里每件展品的历史背景但要是问他那件文物放在展柜的第几层、离你有多远他只能大概估摸。这项研究要做的就是在导游的基础上额外给他配备一把精准的激光测距仪而且这把测距仪几乎不占他背包的空间也不影响他讲解的流畅度。---一、AI的空间盲区为什么聪明的它连远近都搞不清要理解这项研究解决了什么问题不妨先弄清楚现有AI为何在空间感知上如此薄弱。目前主流的视觉语言模型在设计之初就被定位成一个输入图片和文字、输出文字的系统。图片被送进去后经过一个图像编码器的处理变成一堆抽象的数字符号然后和文字一起交给语言模型最终以文字的形式输出答案。整个系统的训练目标只有一个让输出的文字尽可能正确。这就意味着模型在学习过程中从来没有机会接触到这个像素点对应的真实距离是多少米这类信息自然也就无从建立起对空间深度的感知。研究团队做了一项很有说服力的测试即便是最先进的GPT-5.5在他们设计的标准测试中平均正确率也只有大约40%。换句话说这个已经能写诗、做数学题、分析合同的超级AI在判断照片中某个点的距离时表现只比随机瞎猜好一点点。而Qwen3-VL-32B这个参数规模达到320亿的大模型平均正确率甚至只有21%还不如一个永远回答2米的愚笨程序——后者通过蒙对室内近景能拿到15.7%的正确率。另一方面确实存在一些专门做深度估计的纯视觉模型比如DepthAnythingV3、UniDepthV2、Metric3Dv2等。这些模型被单独训练来测量距离表现相当出色。但它们有一个致命缺陷它们只会测距不会说话无法回答这把椅子是什么颜色或图中有几个人这类问题。就像一把非常精准的卷尺你只能用它量距离不能用它聊天。在研究者看来理想的状态应该是两者合一一个系统既能测距又能对话还能结合距离信息来回答更复杂的空间问题比如画面里最近的障碍物是什么它离我有多近。---二、加装测距仪DepthVLM究竟是怎么工作的为了实现这个目标研究团队选择了一条务实而优雅的路线不推倒重建而是在现有的视觉语言模型上加装一个测距模块。现有的视觉语言模型架构可以拆解成三个部分。第一部分是图像编码器它的工作是把一张照片分析成一系列有意义的特征类似于人眼把看到的画面传递给大脑时的初步处理。这个编码器是一种叫做视觉变换器ViT的网络它会对图像进行多层次的分析浅层捕捉边缘、颜色、纹理等低级细节深层则逐渐理解物体的语义含义。第二部分是投影器它的功能是把图像特征转换成语言模型能理解的格式。第三部分就是语言模型本身接收图像特征和用户文字输入生成文字回答。研究团队的核心创新是在这个架构旁边悄悄接上了一个轻量级的深度预测头。这个模块的参数量只有3400万还不到整个4B40亿参数语言模型的1%就像给一辆大型货车加装了一个小巧的GPS天线几乎不增加额外重量。这个深度预测头的工作方式设计得相当巧妙。它不仅仅从图像编码器的最后一层提取信息而是同时窃听图像编码器的多个中间层以及语言模型处理完图像后的最终状态。具体来说模型会从图像编码器的第5、第11、第17层以4B模型为例各取一份特征再加上语言模型对图像理解后的最终特征共四份不同深度的信息。为什么要这样做呢这就像是一个经验丰富的建筑师评估一栋建筑他既要看表面的材质纹理对应浅层图像特征也要理解结构的功能布局对应深层语义特征还要结合建筑在整体环境中的语境对应语言模型的理解结果。把这几个维度的信息融合在一起才能给出最准确的判断。四份特征经过一种叫做DPT风格的融合机制处理——这个机制的名字来源于一篇经典的密集预测论文。简单来说就是把这四份特征在不同的空间分辨率下叠加融合浅层特征保持较高的空间精度对应图像细节深层特征虽然精度较低但语义更丰富最终合并成一张覆盖输入图像每个像素的深度图每个像素的数值就是该点到相机的实际米数距离。整个过程在一次前向传播也就是模型处理一次输入的完整运算中完成不需要任何后处理步骤。与此同时原来的语言模型输出通道完全不受影响它照常生成文字回答。所以这个系统的最终输出有两条并行的流水线一张完整的深度图加上一段文字回应。---三、两步走训练法如何让新能力不破坏旧本领仅仅在架构上加一个模块还不够训练策略同样关键。研究团队发现如果直接把新加的深度预测头和整个模型一起训练随机初始化的深度头会产生混乱的梯度信号像一个初学者在专家团队里乱出主意反而会干扰语言模型原本积累的理解能力。为此他们设计了一个两阶段的训练流程。第一阶段先把整个语言模型冻结起来只允许新加的深度预测头自己单独学习。这就像是新员工入职时先在一边独立完成自己的培训任务不打扰正在工作的老员工。在这个阶段模型使用大量有真实深度标注的图像让深度头学会基本的测距能力。训练所用的损失函数叫做尺度不变对数损失SILog这个名字听起来复杂但道理很简单它不要求模型在每一个绝对数值上都完全精确而是更看重相对关系的正确性同时又保留对真实尺度的约束避免模型在不同数据集之间产生系统性的偏差。第二阶段解除对语言模型的冻结允许整个系统端对端地联合调整。这时的训练数据是深度估计数据和通用视觉问答数据的混合两者的学习目标同时起作用。深度估计的损失保证几何感知能力持续提升视觉问答的损失保证语言理解能力不退化。值得注意的是在第二阶段图像编码器ViT依然保持冻结状态只有语言模型和深度头共同训练。研究团队也测试过解冻图像编码器的效果结果发现深度精度虽然有微小提升但通用多模态能力会明显下降——得不偿失所以最终选择了冻结图像编码器的方案。这种精心设计的训练策略效果相当显著。以4B版本模型为例在MMBench-EN一个考察综合视觉问答能力的标准测试上训练后的模型得分从原始的83.4分只降到了82.9分降幅不到1%在OCRBench考察文字识别能力的测试上得分反而从817提升到了832在POPE考察模型是否会产生幻觉的测试上也从89.8微升到89.9。换句话说加装了测距能力之后这个模型在原来的问答任务上几乎没有任何退步某些方面甚至还有所进步。相比之下此前一个叫DepthLM的工作采用了截然不同的思路——它把深度估计变成了一个纯文字任务要求模型用文字数字来回答每个像素的深度值。这种做法让模型养成了无论问什么都先输出一个深度数字的习惯完全无法再用于正常的视觉问答在标准测试中直接崩溃无法兼容评测协议。---四、消除相机歧义为什么不同相机拍的同一场景需要特殊处理把来自不同数据集的深度数据混合在一起训练还有一个容易被忽视但非常棘手的问题不同相机有不同的焦距。焦距这个概念可以用望远镜的倍数来类比。用10倍望远镜看100米外的树木看起来像是只有10米远换回普通镜头同样的树木就看起来像100米外。如果把用广角镜头短焦距拍摄的照片和用长焦镜头长焦距拍摄的照片混在一起训练模型就会面对这样的矛盾两张看起来景物大小差不多的照片标注的实际距离却可能相差好几倍导致模型完全不知道该相信哪个。研究团队的解决方案是焦距归一化在把图像送入模型之前先根据每张图片的真实焦距把它缩放到一个统一的虚拟焦距实验中选定为1000mm效果最好。这就像把所有人的照片都在同样的距离、用同样的镜头重新拍一遍然后再做比较。图像缩放的同时对应的深度标注也做同比例的调整保证物理意义上的一致性。研究团队测试了三个不同的目标焦距800、1000、1200。结果显示焦距过小800会导致图像被压缩得太小损失细节焦距过大1200则在插值放大时引入模糊。1000是个甜蜜点在所有测试数据集上都取得了最佳平均表现。与完全不做焦距归一化的对照组相比做了归一化之后在Waymo数据集上正确率从80.2%提升到87.9%在IBims-1数据集上从63.0%提升到91.2%提升幅度相当显著。---五、训练数据与评测标准建立一把公平的量尺除了方法本身这项研究还做了另一件有价值的工作建立了一个标准化的训练和评测基准叫做**DepthVLM-Bench**。在数据准备方面研究团队整合了8个公开数据集室内场景包括ScanNet、Taskonomy、HM3D、Matterport3D室外主要是自动驾驶场景包括Argoverse2、Waymo、DDAD、NuScenes。由于很多数据来自视频相邻帧之间几乎完全一样他们对每个数据集进行均匀采样来去除重复。绝大多数数据集各贡献约80万张图像规模较小的DDAD和Matterport3D则按原始规模纳入总量约440万张图像。相比之下DepthAnythingV3等纯视觉模型往往需要超过20个数据集加上大量合成数据才能达到类似效果DepthVLM仅用少了一个数量级的数据就取得了相当甚至更好的成绩。在评测方面研究团队从9个数据集中各采样约1000张图像作为测试集这9个数据集与训练集完全不重叠涵盖4个室内场景数据集ScanNet、sunRGBD、IBims-1、NYUv2、4个室外数据集Argoverse2、Waymo、DDAD、NuScenes以及1个室内外兼有的ETH3D。评测指标采用δ?准确率即预测深度与真实深度之比落在0.8到1.25之间的像素占比——简单说就是误差在25%以内的像素比例。这个指标既不苛求绝对精确又有实际意义非常适合跨场景的综合比较。为了公平比较那些本来没有被训练做深度估计的通用视觉语言模型研究团队设计了一套标准化的提示方法在图片上用红色箭头标出要查询的像素位置然后问模型这个箭头指向的点距相机的实际距离是多少米只回答数字。由于测试发现5像素的小箭头太不起眼很多模型回答图中没有箭头最终统一使用20像素的大箭头确保评测考察的是深度理解能力而非标记检测能力。---六、实验结果数字背后的实际意义在与其他视觉语言模型的比较中DepthVLM-4B40亿参数版本取得了平均δ?准确率0.868的成绩DepthVLM-8B80亿参数版本进一步达到0.876。作为对比参考最强的通用视觉语言模型GPT-5.5仅有0.407Qwen3-VL-32B只有0.210而此前专门做深度估计的视觉语言模型DepthLM-12B参数规模是DepthVLM-4B的三倍达到0.730Youtu-VL-4B达到0.603。与专业的纯视觉深度估计模型相比DepthVLM同样表现出色。在5个公开测试集Waymo、NuScenes、ETH3D、sunRGBD、IBims-1的综合均值上DepthVLM-4B达到0.884DepthVLM-8B达到0.890而最强的纯视觉竞争者DepthAnythingV3为0.877UniDepthV2为0.823Metric3Dv2为0.812。换句话说这个顺便会测距的多功能模型在深度估计这件专项任务上已经超过了绝大多数只会测距的专业工具。在推理速度上差异更为悬殊。对于一张256×192像素的图片DepthLM需要对每个像素单独查询一次总共需要约13个小时Youtu-VL通过预测稀疏的补丁网格然后插值放大耗时2.48秒而DepthVLM在一次完整的前向传播中直接输出像素级深度图耗时仅0.42秒是Youtu-VL的六分之一比DepthLM快了几万倍。研究团队还测试了模型在更高层次空间推理任务上的能力。他们设计了四类任务判断图中某点的精确深度距离、计算图中两个物体之间的最短距离、排列多个物体的远近顺序、估计某个物体的三维尺寸长宽高。结果显示DepthVLM在这些任务上的表现均明显优于GPT-5.5。以其中一个例子为例一辆路面上的车辆与右侧黄色绕行标志之间的距离真实值为4.3米GPT-5.5回答11.2米DepthVLM回答4.5米。这说明获得了真实空间感知能力的模型在需要结合视觉和空间逻辑的推理问题上能给出更接近现实的答案。---七、消融实验每个设计选择为何重要研究团队通过系统性的消融实验逐一验证了每个设计决策的必要性。关于深度预测头的结构选择他们比较了四种方案。最简单的两层全连接网络MLP不使用多尺度特征平均δ?只有0.5左右加上多尺度特征后提升到0.72-0.81的范围用原始DPT头会对语言模型的图像特征做降采样能达到0.85-0.89而他们设计的轻量化DPT头保留原分辨率、通过上采样构建由浅到深的特征金字塔在所有测试集上都取得最佳成绩证明针对视觉语言模型特征结构的专门设计是有价值的。关于特征来源的选择他们比较了只用图像编码器的多层特征、只用语言模型的多层特征单阶段训练、只用语言模型的多层特征双阶段训练和图像编码器多层特征加语言模型最终特征双阶段训练四种组合。最后这种组合在所有数据集上都表现最好说明图像编码器的细粒度几何特征与语言模型对图文整体理解的上下文特征是互补的缺少任何一方都会影响最终精度。---说到底DepthVLM这项研究用一个相当简洁的思路解决了一个长期以来被认为需要复杂系统才能处理的问题让一个视觉语言模型真正看懂空间。它的核心贡献并不是发明了什么前所未有的算法而是找到了一条代价极低、效果出众的路径——用不到1%的额外参数通过两阶段的精心训练把深度感知这个全新能力嫁接到现有语言模型身上而且几乎没有破坏原有的问答能力。对于普通用户来说这项研究描绘的技术方向意味着未来的AI助手或许真的能在你问沙发有多远时给出精确的回答也能在帮我看看这条路上最近的障碍物在哪的问题上给出有实际参考价值的空间描述。对于自动驾驶、机器人导航、增强现实等领域来说一个能同时理解语义和几何的统一模型将会比目前需要多个模块协作的系统更加简洁和鲁棒。当然研究团队也坦诚地指出这项工作目前仅聚焦于单张图片的密集深度估计还没有扩展到三维目标检测、位姿估计等更广泛的感知任务这些方向是未来工作的自然延伸。完整的代码和模型权重将会公开发布感兴趣的技术读者可以通过arXiv论文编号2605.15876查询原始论文和相关资源。---QAQ1DepthVLM和普通的深度估计模型有什么区别A普通深度估计模型比如DepthAnything系列只能输出一张深度图不能回答自然语言问题。DepthVLM在此基础上保留了完整的视觉问答能力能同时输出深度图和文字回应相当于把测距仪和智能助手合并成了一个系统而且深度估计精度并不比专业工具差。Q2DepthVLM训练需要多少数据和算力A训练集包含来自8个公开数据集的约440万张图像在80张NVIDIA H20 GPU上8B版本训练约4天4B版本约2天。相比同类纯视觉模型动辄需要20多个数据集加大量合成数据这个规模已经相当精简。Q3DepthVLM加入深度预测能力后原来的问答能力会变差吗A几乎不会。在多个标准视觉问答测试上DepthVLM与原始基础模型的差距不超过0.5个百分点在文字识别OCRBench和幻觉评估POPE上甚至有小幅提升。相比之下此前的DepthLM因为训练方式过于侧重深度任务导致模型完全无法完成正常的视觉问答在标准测试中直接失效。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2636242.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！