ICLR 2026 | 复旦上交上科等提出Flash-Mono:10倍加速!单目高斯SLAM首次突破实时瓶颈

news2026/5/21 6:33:06
击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达作者张子程(授权发布) | 编辑3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统视频课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入导读在机器人感知的世界里看得快和建得好从来是一对不可兼得的矛盾。现有的单目高斯SLAM方法虽然能用一颗RGB摄像头重建出逼真的三维场景但它们有一个致命的瓶颈——每一帧都要从零训练高斯速度被死死卡在1 FPS以下。这就好比让一个画家每画一幅画都要从磨颜料开始无论多有天赋也快不起来。更要命的是单帧深度估计天生没有统一的尺度帧与帧之间的几何各说各话累积下来就是严重的漂移——地图越长越歪。这一次复旦大学、上海科技大学、上海交通大学联合提出了Flash-Mono——一个彻底颠覆传统范式的单目高斯SLAM系统。它用一个循环前馈大模型直接预测相机位姿和每像素的高斯属性将从零训练变为预测精调一举实现了10倍以上的速度提升首次让单目GS-SLAM迈入真正的实时10 FPS时代。不仅如此它还创造性地利用隐状态作为子地图描述符来实现回环检测通过Sim(3)全局优化彻底消除累积漂移在跟踪精度和建图质量上全面碾压现有方法。该工作已被ICLR 2026接收。Flash-Mono在复杂多房间场景中的重建效果与各项指标雷达图对比。右侧雷达图展示了渲染质量PSNR、SSIM、LPIPS和轨迹跟踪精度ATEFlash-Mono在各维度上全面领先同时速度提升10倍。论文出处ICLR 2026论文标题Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM论文作者Zicheng Zhang, Ke Wu, Xiangting Meng, Keyu Liu, Jieru Zhao, Wenchao Ding作者单位复旦大学、上海科技大学、上海交通大学项目主页https://victkk.github.io/flash-mono1 — 为什么现有方法这么慢一个范式级的瓶颈要理解Flash-Mono的突破性我们首先要搞清楚为什么当前最好的单目GS-SLAM方法连1 FPS都跑不到答案藏在一个词里Train-from-Scratch从零训练。现有方法如MonoGS、DepthGS、S3PO-GS等每来一帧新图像都需要随机初始化高斯属性 → 渲染 → 计算loss → 反向传播 → 更新参数重复数百次。一次迭代大约20ms一帧下来就需要将近一秒。这还没算跟踪、回环等开销。更棘手的是这些方法依赖单帧深度估计网络来提供几何先验但单目深度本质上是尺度不一致的——第一帧预测的1米和第十帧预测的1米可能差了好几倍。随着序列变长漂移像滚雪球一样越积越大最终地图面目全非。Flash-Mono的核心洞察是与其让高斯从零学习不如用一个强大的前馈模型直接预测出来然后只做轻量化精调。这就是从Train-from-Scratch到Predict-and-Refine的范式跃迁。2 — Flash-Mono三大核心模块重塑单目SLAMFlash-Mono的系统架构由三个精心设计的核心模块组成循环前馈前端、隐状态回环检测和2DGS建图后端。下面逐一拆解。Flash-Mono系统架构。对于每帧新图像循环前馈模型基于隐状态联合推断相机位姿和每像素2DGS属性。流式输入被切分为子地图历史隐状态缓存在隐状态集合中。回环检测时只需基于历史隐状态做一次前向传播即可完成重定位随后通过位姿图优化校正全局轨迹。2.1 循环前馈前端一次前向传播搞定一切这是Flash-Mono的灵魂所在。传统方法对每一帧做数百次迭代优化Flash-Mono只需一次前向传播就能同时输出相机位姿每像素2D高斯属性位置、颜色、透明度、旋转、尺度更新后的隐状态其核心是一个有状态的Transformer架构。每帧图像先通过ViT编码器提取视觉token再通过双解码器与持久化隐状态进行交叉注意力交互。隐状态像一个记忆体不断聚合历史帧的几何和外观信息让模型在预测当前帧时拥有多帧上下文从根本上解决了单帧预测缺乏一致性的痛点。数学上整个过程简洁到令人震撼一个公式搞定位姿估计稠密建图状态更新。为什么这么快因为它完全绕开了传统方法中耗时的渲染→反传→更新循环。模型在大规模数据集DL3DV、ScanNet上经过充分训练后已经学会了看一眼就知道怎么建图的能力。后端只需在此基础上做20次精调迭代对比MonoGS的250次即可获得高质量的渲染结果。2.2 隐状态回环检测SLAM界的过目不忘单目SLAM最头疼的问题之一是累积漂移——走了一大圈回到起点却发现地图对不上了。传统回环检测依赖特征匹配PnPRANSAC不仅计算量大而且在单目系统中无法感知尺度变化。Flash-Mono提出了一个极其巧妙的方案把隐状态当作子地图的身份证。具体来说系统将输入流切分为多个子地图submap每个子地图结束时将其最终隐状态缓存到一个隐状态集合Bag of Hidden States中。当系统通过外观匹配SalAD检测到回访旧区域时取出历史隐状态将当前帧送入模型做一次前向传播模型会自动在历史坐标系下重定位当前帧输出跨子地图的位姿约束通过比较同一帧在两个坐标系下的点云鲁棒地估计相对尺度将完整的Sim(3)约束输入位姿图优化一次性校正整条轨迹这个方案的精妙之处在于一次前向传播就能拿到精确的回环约束而传统方法需要特征匹配几何验证多次优化。消融实验证明这种隐状态回环检测方案显著优于传统PnPRANSAC方案在跟踪精度上有大幅领先。2.3 2D高斯后端更好的几何更少的飞点在场景表示上Flash-Mono放弃了传统的3D高斯椭球转而采用2D高斯面元Surfel。为什么因为3D高斯本质上是体积基元缺乏显式的表面约束容易产生漂浮伪影floater。而2D高斯面元天然是平面的提供了更强的表面先验在几何重建精度上有本质优势——对于SLAM这种小误差会快速累积的场景这一点尤为关键。后端流程包括四个阶段自适应体素化将过于密集的前端预测进行2×2合并减少58%的高斯数量PSNR仅下降0.26地图融合将新帧的高斯变换到世界坐标系并融入全局地图自动跳过已充分重建的区域轻量化精调仅需20次迭代即可获得高质量渲染因为前端预测已提供了极强的先验回环校正回环后通过刚性变换高效更新高斯地图无需耗时的重新渲染优化3 — 实验全面碾压速度与质量双丰收Flash-Mono在三个极具挑战性的数据集上进行了全面评估ScanNet大规模室内、BundleFusion域外室内和KITTI大规模户外。所有实验在单张RTX 4090上完成。渲染质量定性对比。Flash-Mono重建的RGB图像在纹理细节、边缘清晰度上均优于MonoGS、DepthGS和S3PO-GS。跟踪精度力压MASt3R-SLAM在ScanNet和BundleFusion上Flash-Mono的ATE RMSE全面超越了所有传统SLAM(ORB-SLAM3、DROID-SLAM)和GS-SLAM(MonoGS、DepthGS、S3PO-GS)基线。值得注意的是它在大多数场景上还超越了MASt3R-SLAM——这是一个同样基于前馈模型的最新SLAM系统。方法ScanNet 0054ScanNet 0106BundleFusion copyroomBundleFusion office0ORB-SLAM3243.26178.1327.60116.33DROID-SLAM161.2289.1119.7131.41MonoGS70.19150.8953.4162.67MASt3R-SLAM13.2515.839.289.97Flash-Mono11.6910.837.348.74ATE RMSE (cm)越低越好建图质量用1/10的优化量打出更好的效果在LPIPS指标感知相似度上Flash-Mono在ScanNet和BundleFusion的所有11个场景上均取得第一名。PSNR指标同样在绝大多数场景上排名第一。要知道Flash-Mono每帧只做20次后端优化迭代而MonoGS和S3PO-GS需要250次。用1/10的计算量打出更好的效果——这就是Predict-and-Refine范式的威力。速度10倍加速碾压全场这是最震撼的数字方法ScanNet FPSBundleFusion FPSMonoGS0.691.00S3PO-GS0.710.94DepthGS1.571.28Flash-Mono12.7111.99Flash-Mono在ScanNet上达到12.71 FPS是最快基线DepthGS的8倍是主流方法MonoGS的18倍。这意味着单目GS-SLAM第一次真正达到了实时运行的标准。几何精度深度重建更准深度渲染定性对比。Flash-Mono的深度图更加平滑、边界更锐利其他方法的深度图存在明显的噪声和孔洞在Depth L1误差指标上Flash-Mono在ScanNet上的平均误差为0.34m远低于DepthGS的0.49m和S3PO-GS的0.52m说明2DGS面元表示带来了实质性的几何精度提升。户外泛化KITTI上同样强劲在大尺度户外场景KITTI上Flash-Mono同样全面领先S3PO-GS唯一能在户外跑通的GS-SLAM基线。特别地S3PO-GS在KITTI 07上直接失败而Flash-Mono依然稳定运行。轨迹估计定性对比。彩色轨迹为各方法的估计结果蓝色低误差红色高误差灰色虚线为真值。Flash-Mono的轨迹几乎与真值完全重合而其他方法存在明显的偏离和漂移。ScanNet 0054场景重建对比。该场景为多房间公寓含光照变化所有基线方法均未能完整重建而Flash-Mono成功重建出完整场景。4 — 更多亮点部署友好笔记本也能跑Flash-Mono整个模型约7.96亿参数推理仅需3GB显存。经过FP16量化和CUDA Graph加速后在笔记本级显卡RTX 4060上也能达到85ms/帧的推理速度接近桌面RTX 4090的62ms。这为边缘端部署打开了大门。5 — 总结Flash-Mono完成了一次真正的范式革命它让单目高斯SLAM从每帧从零训练的笨拙模式跃迁到一次预测轻量精调的优雅范式。10倍的速度提升不是靠牺牲质量换来的——恰恰相反Flash-Mono在跟踪精度、渲染质量、几何精度上同时达到了SOTA水平。隐状态回环检测机制更是优雅地解决了单目SLAM中长期存在的漂移问题展示了前馈大模型在SLAM领域的巨大潜力。一个有趣的未来方向是如果将这种隐状态记忆机制与语义理解相结合是否能让机器人不仅记住去过哪里还能理解到过什么地方从空间记忆到场景语义或许正是具身智能走向成熟的下一步。论文链接https://victkk.github.io/flash-mono作者团队复旦大学、上海科技大学、上海交通大学本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2505968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…