清华大学打造实时交互视频生成新方案:让AI“边想边说“不再卡顿

news2026/5/22 9:32:42
这项由清华大学与人民大学联合开展的研究于2026年5月以预印本形式发布论文编号为arXiv:2605.15141有兴趣深入了解的读者可通过该编号查询完整论文。研究团队来自清华大学和生数科技ShengShu与人民大学的研究人员共同合作完成。你有没有玩过那种需要实时响应玩家操作的游戏当你按下方向键游戏画面要立刻跟着动而不是让你等上好几秒才看到结果。现在AI视频生成正在朝着同样的方向努力——不只是让AI慢慢想好再说而是要让它像人类谈话一样边生成边给你看你还能随时插手改变剧情走向。这正是这项研究要解决的核心问题。研究团队提出了一个叫做Causal Forcing的新方法在保持高画质的前提下把生成视频的等待时间砍掉了一半同时让整个训练过程的成本也降低到原来的四分之一。一、为什么让AI边想边说这么难要理解这项研究的价值先要搞清楚AI视频生成目前面临的一个根本矛盾。传统的AI视频模型有点像一个需要提前背好全部台词的演员——在开始表演之前它要把整段视频从头到尾都规划好然后一次性生成出来。这种方式生成的画面质量很高但问题是你得等很久才能看到第一帧画面而且中途根本没法插手修改。这就好比你去餐厅点了一道菜厨师要把整桌菜全部做完才端上来你饿着肚子等了一个小时还不能在中途说我不要香菜。为了解决这个问题研究者们提出了自回归扩散模型Autoregressive Diffusion Model的思路。这种模型更像一个即兴演讲的人——它一帧一帧地生成视频每生成完一帧就立刻给你看然后根据已经生成的内容决定下一帧怎么画。这样你不用等很久才看到第一帧也可以在中途给出新的指令。这是流式生成也是实现真正实时交互的基础。然而这里还有一个速度问题。哪怕是一帧一帧地生成生成每一帧本身也需要很多步骤。就好像一个画家哪怕只画一幅小画也需要先打草稿、再上底色、再细化、再润色好几步才能完成。如果每一帧都要走这么多步速度还是快不起来。研究团队面对的挑战就是如何让AI在尽可能少的步骤内最少只需要一步或两步就能生成每一帧高质量的视频画面同时还能维持整体视频的流畅性和一致性。这件事听起来简单但里面藏着一个大坑——如何在训练阶段为这个少步骤生成器打好基础。二、现有方案为何都差点意思在这项研究之前已经有几个团队尝试解决这个问题但每种方案都有各自的硬伤。第一种方案来自CausVid和Self Forcing两个工作。他们的做法是先用一个双向视频生成模型就是那种需要提前规划全局的传统高质量模型来生成参考路径然后训练一个只看过去、不看未来的自回归模型去模仿这条路径。问题在哪里这就像你请一个只能往前走、看不到身后的向导去复刻一条由能看前后左右全景的侦察机所规划的路线。侦察机在规划路线时用了你这个向导看不到的信息未来的帧所以这条路线对向导来说根本是个错误的目标学了也没用甚至越学越偏。这个问题在生成步骤越少、生成粒度越细的情况下会被急剧放大最终导致画面质量崩溃。第二种方案出现在LiveAvatar和WorldPlay中思路更直接既然少步骤生成器不好训练那就干脆不特别训练它直接用多步骤的自回归模型充数。这种做法的问题同样显而易见。就像一个习惯了用十步来完成一道菜的厨师你突然要求他只用一步完成他根本没学过怎么做每一帧的误差都很大而这些误差在一帧帧生成的过程中会像滚雪球一样越滚越大最后视频质量彻底崩。第三种方案是Causal Forcing也就是这篇论文要升级的前一代工作。它的思路最严谨先把那个全局规划的传统模型改造成一个只看过去的自回归版本然后用这个改造版来生成参考路径再训练少步骤的学生模型去学这条路径。这样学习目标终于对了不再让向导去学一条自己看不到全貌的路。然而这个方案有一个巨大的代价——生成参考路径需要对每一个训练样本都走完整的48步计算过程然后把整条路径存下来。在他们80,000个视频的训练规模下光是这个数据准备工作就要消耗约11,600个A800 GPU小时还需要约1,900 GB的额外存储空间。而且一旦你想换个配置比如改变每次生成的帧数所有这些数据就得全部重新生成。这就像每次换菜单就要把整个厨房重新布置一遍实在太费事了。由此可见三条现有路都各有致命的短板要么目标搞错了要么能力不够用要么代价太高昂。这项研究的使命就是找到一条同时满足目标正确能力够用代价合理三个条件的新路。三、Causal Forcing的核心妙招换一种更聪明的练习方式这项研究提出的关键洞察可以用一个学钢琴的比喻来理解。Causal Forcing的老方法相当于老师先完整演奏一遍整首曲子走完48步的完整路径把每个音符都录下来然后让学生对着录音逐音模仿。这种方法学习目标确实是对的但准备那份录音的工作量极大而且你让学生跨越很大的信息鸿沟——从嘈杂的噪声状态一步跳到完美成品这个跨度太大学起来很吃力。新方法因果一致性蒸馏Causal Consistency Distillation简称Causal CD则换了一种思路不预先录制完整路径而是在每次练习时让老师只演示相邻两个时间点之间的一小步变化学生从这一小步中学习如何做连贯的预测。关键在于这种方法和旧方法的学习目标其实是一模一样的——都是要学会那个AR条件流映射AR-conditional flow map也就是给你当前的噪声状态和过去的帧告诉你最终干净的结果应该是什么这个映射关系。但是旧方法需要提前生成并存储整条路径才能学新方法只需要在训练时临时算一小步就够了完全不需要预先存储任何东西训练时直接用真实视频数据在线计算即可。从数学上看这背后有严格的理论保证。研究团队证明了在训练最优的情况下新方法学到的结果与旧方法相差的误差量会随着相邻时间步之间的间距缩小而缩小到可以忽略不计。也就是说理论上两种方法会收敛到同一个学习目标。实际效果甚至更好。旧方法要求学生一步跳过很大的鸿沟从高噪声直接预测最终结果这本身就是个很难的优化任务容易学偏。新方法每次只学相邻一小步每个小步的难度大大降低整体优化过程更稳定最终学出的模型反而质量更高。就像练钢琴时与其每次都要求直接弹完整首曲子不如先把每个小节练熟最后连起来自然更流畅。在成本上新方法的优势极为显著。同样的80,000个视频训练规模下Causal CD只需要约2,900个A800 GPU小时原来是11,600节省约75%额外存储空间降为零原来需要1,900 GB。换句话说不仅训练时间缩短到原来的四分之一还完全不需要额外的硬盘空间来存预计算的数据。四、为什么不用另一种听起来更厉害的DMD方法看到这里熟悉这个领域的读者可能会问除了一致性蒸馏还有一种叫做分布匹配蒸馏Distribution Matching Distillation简称DMD的技术它在传统图像生成领域通常能产生更清晰的结果能不能用来做这里的初始化研究团队确实认真测试了这条路结果出乎意料。他们发现用DMD方式做出的初始化称为Causal DMD在视频生成的头几帧质量确实比一致性方式更好画面更清晰。但随着视频继续生成质量急剧下滑后面的帧变得混乱不堪甚至出现严重的镜头漂移现象。为什么会这样这里有一个很直观的解释。DMD优化的是反向KL散度它倾向于压注——把所有的概率质量都集中在最可能的那几种结果上就像一个极度自信的赌徒把所有筹码压在最热门的选项上不怎么关心其他可能性。这在静态图像生成时是优势因为确实能产生更清晰的结果。但在自回归视频生成中每帧生成的时候都需要基于前面已经生成的帧来预测。前面的帧不可避免地存在一点误差而这个误差会让条件分布发生偏移。对于DMD来说由于概率质量过于集中一旦这个集中的峰值因为历史误差而偏移到了低质量区域几乎所有生成结果都会跟着掉进低质量区——这就叫暴露偏差的雪崩效应。相比之下一致性蒸馏优化的是前向KL散度它更倾向于覆盖——保持一个相对分散的概率分布关注多种可能结果。这样的模型面对历史误差带来的偏移时更有弹性哪怕概率分布整体偏移了一些依然有相当一部分质量可以落在好的区域。虽然单帧看可能不如DMD那么清晰但整段视频下来稳定性要好得多。这个发现在直觉上也很有道理在一个你需要持续犯小错误的连续过程中一个弹性大、不钻牛角尖的策略往往比一个极度自信、只认最优解的策略更稳健。五、实验结果数字背后的真实差距研究团队在Wan2.1-1.3B这个基础模型上进行了全面测试生成480×832分辨率、81帧的视频并与现有最好的方法进行了详细对比。在与现有方法的横向比较中Causal Forcing2步生成版本在两个主要评测基准上均取得了最好的综合成绩。在VBench总分上达到84.14超过了Causal Forcing的84.04和Self Forcing的83.74在VBench画质分上达到84.89同样领先于所有前辈方法。在VisionReward这个衡量人类视觉偏好的指标上2步版本得分6.661远超Causal Forcing的6.326和Self Forcing的5.820。与此同时首帧延迟从所有前代方法的0.60秒降低到了0.27秒整整快了一半。视频生成的吞吐量每秒能生成多少帧也从10.4帧每秒提升到了14.1帧每秒。如果选择4步生成版本VisionReward进一步提升到6.798动态程度得分达到71超过了所有之前的方法首帧延迟依然保持在0.27秒这个更低的水平。在消融实验也就是逐一测试每个设计选择是否有效的对照实验中研究团队系统比较了五种不同的初始化策略在1步、2步、4步三种设置下的表现。结论非常清晰Self Forcing式的初始化在逐帧设置下全面崩溃动态程度得分在1步和2步设置下都降到了0VBench总分都低于80。直接用多步模型做初始化的方案在1步设置下同样近乎崩溃动态程度为0。Causal ODE前代方法在质量上表现尚可但代价是每次训练要花11,600 GPU小时和1,900 GB存储。Causal DMD的质量介于其间但暴露偏差问题明显。而Causal CD在所有步数设置下都达到了最高或持平最高的质量分数同时只需要2,900 GPU小时存储开销为零。六、举一反三把这套方法用到游戏世界模型上除了通用视频生成研究团队还展示了这套方法在一个更有趣的应用场景下的效果根据摄像机操控指令实时生成对应的游戏世界画面。这种应用被称为动作条件世界模型Action-Conditioned World Model灵感来自一个叫做Genie3的概念框架。简单来说你可以把它想象成你在一个虚拟世界里用摇杆控制摄像机向前走、向左转、向下看AI要实时生成你看到的画面而且要保持场景的几何一致性——你刚才看到的那棵树绕过去之后从另一个角度看还应该在那里。研究团队的做法分三步首先构建一个带有摄像机位姿标注的训练数据集然后在基础视频模型上注入摄像机位姿信息让它理解这个角度的摄像机应该看到什么最后用Causal Forcing把这个懂摄像机位姿的模型蒸馏成一个低延迟的交互版本。从展示的效果来看系统能够正确响应持续向前走和先向前走再向下倾斜摄像机等指令生成视觉上连贯的场景变化。研究团队也指出把这个场景进一步压缩到逐帧两步生成以实现完全实时的交互是下一步的工作方向。说到底这项研究做了一件很有实际价值的事它找到了一条更聪明的练习方式让AI视频生成模型能够用更少的时间、更少的计算资源学会边想边说这项关键技能。具体来说就是用因果一致性蒸馏代替了因果ODE蒸馏在保证学习目标完全正确的前提下把训练成本降低到四分之一同时还因为优化难度降低而获得了更好的质量。对于普通用户来说这意味着未来你在玩AI驱动的互动故事、虚拟世界探索或者实时AI助手时等待时间会大幅缩短响应也会更流畅自然。而对于研究者和工程师来说这套更高效的训练方法意味着同样的计算预算可以探索更多不同的配置和应用场景加快整个领域的迭代速度。当然这项工作也还有一些没有完全解决的挑战。比如在逐帧1步生成这个最激进的设置下语义准确性81.13分相比Causal Forcing81.84分仍然略有下降动作条件世界模型也还停留在4步生成尚未实现完全实时的逐帧交互。这些都是作者明确列出的未来工作方向。对这个领域感兴趣的读者可以通过arXiv编号2605.15141找到原始论文研究团队也在GitHub上开放了相关代码thu-ml/Causal-Forcing和shengshu-ai/minWM有技术背景的读者可以直接上手实验。---QAQ1Causal Forcing和普通视频生成AI有什么区别A普通视频生成AI通常要把整段视频规划好再一次性输出等待时间长用户无法中途干预。Causal Forcing采用逐帧自回归方式边生成边输出首帧延迟只有0.27秒比前代方法快50%且用户可以实时给出新的控制指令更适合交互式应用场景。Q2因果一致性蒸馏为什么比因果ODE蒸馏训练成本低这么多A因果ODE蒸馏需要对每个训练样本都预先生成完整的48步计算路径并存储起来80,000个视频规模下需要11,600 GPU小时和1,900 GB存储。因果一致性蒸馏不需要预存路径每次训练只临时计算相邻两个时间步之间的一小步变化直接用真实视频在线训练因此只需要2,900 GPU小时额外存储为零大约节省了75%的训练时间。Q3为什么Causal DMD初始化的视频后期会崩ADMD方法优化的是反向KL散度会把概率集中在少数高置信度的结果上生成的画面初期很清晰。但在自回归视频生成中历史帧的微小误差会让后续帧的条件分布发生偏移高度集中的概率一旦偏移到低质量区域几乎所有后续帧都会跟着变差形成暴露偏差的雪崩效应。而一致性蒸馏的分布更分散对历史误差有更强的容错性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2634329.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…