ICLR 2026 | 复旦上交上科等提出Flash-Mono:10倍加速!单目高斯SLAM首次突破实时瓶颈
击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达作者张子程(授权发布) | 编辑3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统视频课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入导读在机器人感知的世界里看得快和建得好从来是一对不可兼得的矛盾。现有的单目高斯SLAM方法虽然能用一颗RGB摄像头重建出逼真的三维场景但它们有一个致命的瓶颈——每一帧都要从零训练高斯速度被死死卡在1 FPS以下。这就好比让一个画家每画一幅画都要从磨颜料开始无论多有天赋也快不起来。更要命的是单帧深度估计天生没有统一的尺度帧与帧之间的几何各说各话累积下来就是严重的漂移——地图越长越歪。这一次复旦大学、上海科技大学、上海交通大学联合提出了Flash-Mono——一个彻底颠覆传统范式的单目高斯SLAM系统。它用一个循环前馈大模型直接预测相机位姿和每像素的高斯属性将从零训练变为预测精调一举实现了10倍以上的速度提升首次让单目GS-SLAM迈入真正的实时10 FPS时代。不仅如此它还创造性地利用隐状态作为子地图描述符来实现回环检测通过Sim(3)全局优化彻底消除累积漂移在跟踪精度和建图质量上全面碾压现有方法。该工作已被ICLR 2026接收。Flash-Mono在复杂多房间场景中的重建效果与各项指标雷达图对比。右侧雷达图展示了渲染质量PSNR、SSIM、LPIPS和轨迹跟踪精度ATEFlash-Mono在各维度上全面领先同时速度提升10倍。论文出处ICLR 2026论文标题Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM论文作者Zicheng Zhang, Ke Wu, Xiangting Meng, Keyu Liu, Jieru Zhao, Wenchao Ding作者单位复旦大学、上海科技大学、上海交通大学项目主页https://victkk.github.io/flash-mono1 — 为什么现有方法这么慢一个范式级的瓶颈要理解Flash-Mono的突破性我们首先要搞清楚为什么当前最好的单目GS-SLAM方法连1 FPS都跑不到答案藏在一个词里Train-from-Scratch从零训练。现有方法如MonoGS、DepthGS、S3PO-GS等每来一帧新图像都需要随机初始化高斯属性 → 渲染 → 计算loss → 反向传播 → 更新参数重复数百次。一次迭代大约20ms一帧下来就需要将近一秒。这还没算跟踪、回环等开销。更棘手的是这些方法依赖单帧深度估计网络来提供几何先验但单目深度本质上是尺度不一致的——第一帧预测的1米和第十帧预测的1米可能差了好几倍。随着序列变长漂移像滚雪球一样越积越大最终地图面目全非。Flash-Mono的核心洞察是与其让高斯从零学习不如用一个强大的前馈模型直接预测出来然后只做轻量化精调。这就是从Train-from-Scratch到Predict-and-Refine的范式跃迁。2 — Flash-Mono三大核心模块重塑单目SLAMFlash-Mono的系统架构由三个精心设计的核心模块组成循环前馈前端、隐状态回环检测和2DGS建图后端。下面逐一拆解。Flash-Mono系统架构。对于每帧新图像循环前馈模型基于隐状态联合推断相机位姿和每像素2DGS属性。流式输入被切分为子地图历史隐状态缓存在隐状态集合中。回环检测时只需基于历史隐状态做一次前向传播即可完成重定位随后通过位姿图优化校正全局轨迹。2.1 循环前馈前端一次前向传播搞定一切这是Flash-Mono的灵魂所在。传统方法对每一帧做数百次迭代优化Flash-Mono只需一次前向传播就能同时输出相机位姿每像素2D高斯属性位置、颜色、透明度、旋转、尺度更新后的隐状态其核心是一个有状态的Transformer架构。每帧图像先通过ViT编码器提取视觉token再通过双解码器与持久化隐状态进行交叉注意力交互。隐状态像一个记忆体不断聚合历史帧的几何和外观信息让模型在预测当前帧时拥有多帧上下文从根本上解决了单帧预测缺乏一致性的痛点。数学上整个过程简洁到令人震撼一个公式搞定位姿估计稠密建图状态更新。为什么这么快因为它完全绕开了传统方法中耗时的渲染→反传→更新循环。模型在大规模数据集DL3DV、ScanNet上经过充分训练后已经学会了看一眼就知道怎么建图的能力。后端只需在此基础上做20次精调迭代对比MonoGS的250次即可获得高质量的渲染结果。2.2 隐状态回环检测SLAM界的过目不忘单目SLAM最头疼的问题之一是累积漂移——走了一大圈回到起点却发现地图对不上了。传统回环检测依赖特征匹配PnPRANSAC不仅计算量大而且在单目系统中无法感知尺度变化。Flash-Mono提出了一个极其巧妙的方案把隐状态当作子地图的身份证。具体来说系统将输入流切分为多个子地图submap每个子地图结束时将其最终隐状态缓存到一个隐状态集合Bag of Hidden States中。当系统通过外观匹配SalAD检测到回访旧区域时取出历史隐状态将当前帧送入模型做一次前向传播模型会自动在历史坐标系下重定位当前帧输出跨子地图的位姿约束通过比较同一帧在两个坐标系下的点云鲁棒地估计相对尺度将完整的Sim(3)约束输入位姿图优化一次性校正整条轨迹这个方案的精妙之处在于一次前向传播就能拿到精确的回环约束而传统方法需要特征匹配几何验证多次优化。消融实验证明这种隐状态回环检测方案显著优于传统PnPRANSAC方案在跟踪精度上有大幅领先。2.3 2D高斯后端更好的几何更少的飞点在场景表示上Flash-Mono放弃了传统的3D高斯椭球转而采用2D高斯面元Surfel。为什么因为3D高斯本质上是体积基元缺乏显式的表面约束容易产生漂浮伪影floater。而2D高斯面元天然是平面的提供了更强的表面先验在几何重建精度上有本质优势——对于SLAM这种小误差会快速累积的场景这一点尤为关键。后端流程包括四个阶段自适应体素化将过于密集的前端预测进行2×2合并减少58%的高斯数量PSNR仅下降0.26地图融合将新帧的高斯变换到世界坐标系并融入全局地图自动跳过已充分重建的区域轻量化精调仅需20次迭代即可获得高质量渲染因为前端预测已提供了极强的先验回环校正回环后通过刚性变换高效更新高斯地图无需耗时的重新渲染优化3 — 实验全面碾压速度与质量双丰收Flash-Mono在三个极具挑战性的数据集上进行了全面评估ScanNet大规模室内、BundleFusion域外室内和KITTI大规模户外。所有实验在单张RTX 4090上完成。渲染质量定性对比。Flash-Mono重建的RGB图像在纹理细节、边缘清晰度上均优于MonoGS、DepthGS和S3PO-GS。跟踪精度力压MASt3R-SLAM在ScanNet和BundleFusion上Flash-Mono的ATE RMSE全面超越了所有传统SLAM(ORB-SLAM3、DROID-SLAM)和GS-SLAM(MonoGS、DepthGS、S3PO-GS)基线。值得注意的是它在大多数场景上还超越了MASt3R-SLAM——这是一个同样基于前馈模型的最新SLAM系统。方法ScanNet 0054ScanNet 0106BundleFusion copyroomBundleFusion office0ORB-SLAM3243.26178.1327.60116.33DROID-SLAM161.2289.1119.7131.41MonoGS70.19150.8953.4162.67MASt3R-SLAM13.2515.839.289.97Flash-Mono11.6910.837.348.74ATE RMSE (cm)越低越好建图质量用1/10的优化量打出更好的效果在LPIPS指标感知相似度上Flash-Mono在ScanNet和BundleFusion的所有11个场景上均取得第一名。PSNR指标同样在绝大多数场景上排名第一。要知道Flash-Mono每帧只做20次后端优化迭代而MonoGS和S3PO-GS需要250次。用1/10的计算量打出更好的效果——这就是Predict-and-Refine范式的威力。速度10倍加速碾压全场这是最震撼的数字方法ScanNet FPSBundleFusion FPSMonoGS0.691.00S3PO-GS0.710.94DepthGS1.571.28Flash-Mono12.7111.99Flash-Mono在ScanNet上达到12.71 FPS是最快基线DepthGS的8倍是主流方法MonoGS的18倍。这意味着单目GS-SLAM第一次真正达到了实时运行的标准。几何精度深度重建更准深度渲染定性对比。Flash-Mono的深度图更加平滑、边界更锐利其他方法的深度图存在明显的噪声和孔洞在Depth L1误差指标上Flash-Mono在ScanNet上的平均误差为0.34m远低于DepthGS的0.49m和S3PO-GS的0.52m说明2DGS面元表示带来了实质性的几何精度提升。户外泛化KITTI上同样强劲在大尺度户外场景KITTI上Flash-Mono同样全面领先S3PO-GS唯一能在户外跑通的GS-SLAM基线。特别地S3PO-GS在KITTI 07上直接失败而Flash-Mono依然稳定运行。轨迹估计定性对比。彩色轨迹为各方法的估计结果蓝色低误差红色高误差灰色虚线为真值。Flash-Mono的轨迹几乎与真值完全重合而其他方法存在明显的偏离和漂移。ScanNet 0054场景重建对比。该场景为多房间公寓含光照变化所有基线方法均未能完整重建而Flash-Mono成功重建出完整场景。4 — 更多亮点部署友好笔记本也能跑Flash-Mono整个模型约7.96亿参数推理仅需3GB显存。经过FP16量化和CUDA Graph加速后在笔记本级显卡RTX 4060上也能达到85ms/帧的推理速度接近桌面RTX 4090的62ms。这为边缘端部署打开了大门。5 — 总结Flash-Mono完成了一次真正的范式革命它让单目高斯SLAM从每帧从零训练的笨拙模式跃迁到一次预测轻量精调的优雅范式。10倍的速度提升不是靠牺牲质量换来的——恰恰相反Flash-Mono在跟踪精度、渲染质量、几何精度上同时达到了SOTA水平。隐状态回环检测机制更是优雅地解决了单目SLAM中长期存在的漂移问题展示了前馈大模型在SLAM领域的巨大潜力。一个有趣的未来方向是如果将这种隐状态记忆机制与语义理解相结合是否能让机器人不仅记住去过哪里还能理解到过什么地方从空间记忆到场景语义或许正是具身智能走向成熟的下一步。论文链接https://victkk.github.io/flash-mono作者团队复旦大学、上海科技大学、上海交通大学本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2505968.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!