清华大学打造实时交互视频生成新方案：让AI“边想边说“不再卡顿

news2026/5/22 9:32:42

这项由清华大学与人民大学联合开展的研究于2026年5月以预印本形式发布论文编号为arXiv:2605.15141有兴趣深入了解的读者可通过该编号查询完整论文。研究团队来自清华大学和生数科技ShengShu与人民大学的研究人员共同合作完成。你有没有玩过那种需要实时响应玩家操作的游戏当你按下方向键游戏画面要立刻跟着动而不是让你等上好几秒才看到结果。现在AI视频生成正在朝着同样的方向努力——不只是让AI慢慢想好再说而是要让它像人类谈话一样边生成边给你看你还能随时插手改变剧情走向。这正是这项研究要解决的核心问题。研究团队提出了一个叫做Causal Forcing的新方法在保持高画质的前提下把生成视频的等待时间砍掉了一半同时让整个训练过程的成本也降低到原来的四分之一。一、为什么让AI边想边说这么难要理解这项研究的价值先要搞清楚AI视频生成目前面临的一个根本矛盾。传统的AI视频模型有点像一个需要提前背好全部台词的演员——在开始表演之前它要把整段视频从头到尾都规划好然后一次性生成出来。这种方式生成的画面质量很高但问题是你得等很久才能看到第一帧画面而且中途根本没法插手修改。这就好比你去餐厅点了一道菜厨师要把整桌菜全部做完才端上来你饿着肚子等了一个小时还不能在中途说我不要香菜。为了解决这个问题研究者们提出了自回归扩散模型Autoregressive Diffusion Model的思路。这种模型更像一个即兴演讲的人——它一帧一帧地生成视频每生成完一帧就立刻给你看然后根据已经生成的内容决定下一帧怎么画。这样你不用等很久才看到第一帧也可以在中途给出新的指令。这是流式生成也是实现真正实时交互的基础。然而这里还有一个速度问题。哪怕是一帧一帧地生成生成每一帧本身也需要很多步骤。就好像一个画家哪怕只画一幅小画也需要先打草稿、再上底色、再细化、再润色好几步才能完成。如果每一帧都要走这么多步速度还是快不起来。研究团队面对的挑战就是如何让AI在尽可能少的步骤内最少只需要一步或两步就能生成每一帧高质量的视频画面同时还能维持整体视频的流畅性和一致性。这件事听起来简单但里面藏着一个大坑——如何在训练阶段为这个少步骤生成器打好基础。二、现有方案为何都差点意思在这项研究之前已经有几个团队尝试解决这个问题但每种方案都有各自的硬伤。第一种方案来自CausVid和Self Forcing两个工作。他们的做法是先用一个双向视频生成模型就是那种需要提前规划全局的传统高质量模型来生成参考路径然后训练一个只看过去、不看未来的自回归模型去模仿这条路径。问题在哪里这就像你请一个只能往前走、看不到身后的向导去复刻一条由能看前后左右全景的侦察机所规划的路线。侦察机在规划路线时用了你这个向导看不到的信息未来的帧所以这条路线对向导来说根本是个错误的目标学了也没用甚至越学越偏。这个问题在生成步骤越少、生成粒度越细的情况下会被急剧放大最终导致画面质量崩溃。第二种方案出现在LiveAvatar和WorldPlay中思路更直接既然少步骤生成器不好训练那就干脆不特别训练它直接用多步骤的自回归模型充数。这种做法的问题同样显而易见。就像一个习惯了用十步来完成一道菜的厨师你突然要求他只用一步完成他根本没学过怎么做每一帧的误差都很大而这些误差在一帧帧生成的过程中会像滚雪球一样越滚越大最后视频质量彻底崩。第三种方案是Causal Forcing也就是这篇论文要升级的前一代工作。它的思路最严谨先把那个全局规划的传统模型改造成一个只看过去的自回归版本然后用这个改造版来生成参考路径再训练少步骤的学生模型去学这条路径。这样学习目标终于对了不再让向导去学一条自己看不到全貌的路。然而这个方案有一个巨大的代价——生成参考路径需要对每一个训练样本都走完整的48步计算过程然后把整条路径存下来。在他们80,000个视频的训练规模下光是这个数据准备工作就要消耗约11,600个A800 GPU小时还需要约1,900 GB的额外存储空间。而且一旦你想换个配置比如改变每次生成的帧数所有这些数据就得全部重新生成。这就像每次换菜单就要把整个厨房重新布置一遍实在太费事了。由此可见三条现有路都各有致命的短板要么目标搞错了要么能力不够用要么代价太高昂。这项研究的使命就是找到一条同时满足目标正确能力够用代价合理三个条件的新路。三、Causal Forcing的核心妙招换一种更聪明的练习方式这项研究提出的关键洞察可以用一个学钢琴的比喻来理解。Causal Forcing的老方法相当于老师先完整演奏一遍整首曲子走完48步的完整路径把每个音符都录下来然后让学生对着录音逐音模仿。这种方法学习目标确实是对的但准备那份录音的工作量极大而且你让学生跨越很大的信息鸿沟——从嘈杂的噪声状态一步跳到完美成品这个跨度太大学起来很吃力。新方法因果一致性蒸馏Causal Consistency Distillation简称Causal CD则换了一种思路不预先录制完整路径而是在每次练习时让老师只演示相邻两个时间点之间的一小步变化学生从这一小步中学习如何做连贯的预测。关键在于这种方法和旧方法的学习目标其实是一模一样的——都是要学会那个AR条件流映射AR-conditional flow map也就是给你当前的噪声状态和过去的帧告诉你最终干净的结果应该是什么这个映射关系。但是旧方法需要提前生成并存储整条路径才能学新方法只需要在训练时临时算一小步就够了完全不需要预先存储任何东西训练时直接用真实视频数据在线计算即可。从数学上看这背后有严格的理论保证。研究团队证明了在训练最优的情况下新方法学到的结果与旧方法相差的误差量会随着相邻时间步之间的间距缩小而缩小到可以忽略不计。也就是说理论上两种方法会收敛到同一个学习目标。实际效果甚至更好。旧方法要求学生一步跳过很大的鸿沟从高噪声直接预测最终结果这本身就是个很难的优化任务容易学偏。新方法每次只学相邻一小步每个小步的难度大大降低整体优化过程更稳定最终学出的模型反而质量更高。就像练钢琴时与其每次都要求直接弹完整首曲子不如先把每个小节练熟最后连起来自然更流畅。在成本上新方法的优势极为显著。同样的80,000个视频训练规模下Causal CD只需要约2,900个A800 GPU小时原来是11,600节省约75%额外存储空间降为零原来需要1,900 GB。换句话说不仅训练时间缩短到原来的四分之一还完全不需要额外的硬盘空间来存预计算的数据。四、为什么不用另一种听起来更厉害的DMD方法看到这里熟悉这个领域的读者可能会问除了一致性蒸馏还有一种叫做分布匹配蒸馏Distribution Matching Distillation简称DMD的技术它在传统图像生成领域通常能产生更清晰的结果能不能用来做这里的初始化研究团队确实认真测试了这条路结果出乎意料。他们发现用DMD方式做出的初始化称为Causal DMD在视频生成的头几帧质量确实比一致性方式更好画面更清晰。但随着视频继续生成质量急剧下滑后面的帧变得混乱不堪甚至出现严重的镜头漂移现象。为什么会这样这里有一个很直观的解释。DMD优化的是反向KL散度它倾向于压注——把所有的概率质量都集中在最可能的那几种结果上就像一个极度自信的赌徒把所有筹码压在最热门的选项上不怎么关心其他可能性。这在静态图像生成时是优势因为确实能产生更清晰的结果。但在自回归视频生成中每帧生成的时候都需要基于前面已经生成的帧来预测。前面的帧不可避免地存在一点误差而这个误差会让条件分布发生偏移。对于DMD来说由于概率质量过于集中一旦这个集中的峰值因为历史误差而偏移到了低质量区域几乎所有生成结果都会跟着掉进低质量区——这就叫暴露偏差的雪崩效应。相比之下一致性蒸馏优化的是前向KL散度它更倾向于覆盖——保持一个相对分散的概率分布关注多种可能结果。这样的模型面对历史误差带来的偏移时更有弹性哪怕概率分布整体偏移了一些依然有相当一部分质量可以落在好的区域。虽然单帧看可能不如DMD那么清晰但整段视频下来稳定性要好得多。这个发现在直觉上也很有道理在一个你需要持续犯小错误的连续过程中一个弹性大、不钻牛角尖的策略往往比一个极度自信、只认最优解的策略更稳健。五、实验结果数字背后的真实差距研究团队在Wan2.1-1.3B这个基础模型上进行了全面测试生成480×832分辨率、81帧的视频并与现有最好的方法进行了详细对比。在与现有方法的横向比较中Causal Forcing2步生成版本在两个主要评测基准上均取得了最好的综合成绩。在VBench总分上达到84.14超过了Causal Forcing的84.04和Self Forcing的83.74在VBench画质分上达到84.89同样领先于所有前辈方法。在VisionReward这个衡量人类视觉偏好的指标上2步版本得分6.661远超Causal Forcing的6.326和Self Forcing的5.820。与此同时首帧延迟从所有前代方法的0.60秒降低到了0.27秒整整快了一半。视频生成的吞吐量每秒能生成多少帧也从10.4帧每秒提升到了14.1帧每秒。如果选择4步生成版本VisionReward进一步提升到6.798动态程度得分达到71超过了所有之前的方法首帧延迟依然保持在0.27秒这个更低的水平。在消融实验也就是逐一测试每个设计选择是否有效的对照实验中研究团队系统比较了五种不同的初始化策略在1步、2步、4步三种设置下的表现。结论非常清晰Self Forcing式的初始化在逐帧设置下全面崩溃动态程度得分在1步和2步设置下都降到了0VBench总分都低于80。直接用多步模型做初始化的方案在1步设置下同样近乎崩溃动态程度为0。Causal ODE前代方法在质量上表现尚可但代价是每次训练要花11,600 GPU小时和1,900 GB存储。Causal DMD的质量介于其间但暴露偏差问题明显。而Causal CD在所有步数设置下都达到了最高或持平最高的质量分数同时只需要2,900 GPU小时存储开销为零。六、举一反三把这套方法用到游戏世界模型上除了通用视频生成研究团队还展示了这套方法在一个更有趣的应用场景下的效果根据摄像机操控指令实时生成对应的游戏世界画面。这种应用被称为动作条件世界模型Action-Conditioned World Model灵感来自一个叫做Genie3的概念框架。简单来说你可以把它想象成你在一个虚拟世界里用摇杆控制摄像机向前走、向左转、向下看AI要实时生成你看到的画面而且要保持场景的几何一致性——你刚才看到的那棵树绕过去之后从另一个角度看还应该在那里。研究团队的做法分三步首先构建一个带有摄像机位姿标注的训练数据集然后在基础视频模型上注入摄像机位姿信息让它理解这个角度的摄像机应该看到什么最后用Causal Forcing把这个懂摄像机位姿的模型蒸馏成一个低延迟的交互版本。从展示的效果来看系统能够正确响应持续向前走和先向前走再向下倾斜摄像机等指令生成视觉上连贯的场景变化。研究团队也指出把这个场景进一步压缩到逐帧两步生成以实现完全实时的交互是下一步的工作方向。说到底这项研究做了一件很有实际价值的事它找到了一条更聪明的练习方式让AI视频生成模型能够用更少的时间、更少的计算资源学会边想边说这项关键技能。具体来说就是用因果一致性蒸馏代替了因果ODE蒸馏在保证学习目标完全正确的前提下把训练成本降低到四分之一同时还因为优化难度降低而获得了更好的质量。对于普通用户来说这意味着未来你在玩AI驱动的互动故事、虚拟世界探索或者实时AI助手时等待时间会大幅缩短响应也会更流畅自然。而对于研究者和工程师来说这套更高效的训练方法意味着同样的计算预算可以探索更多不同的配置和应用场景加快整个领域的迭代速度。当然这项工作也还有一些没有完全解决的挑战。比如在逐帧1步生成这个最激进的设置下语义准确性81.13分相比Causal Forcing81.84分仍然略有下降动作条件世界模型也还停留在4步生成尚未实现完全实时的逐帧交互。这些都是作者明确列出的未来工作方向。对这个领域感兴趣的读者可以通过arXiv编号2605.15141找到原始论文研究团队也在GitHub上开放了相关代码thu-ml/Causal-Forcing和shengshu-ai/minWM有技术背景的读者可以直接上手实验。---QAQ1Causal Forcing和普通视频生成AI有什么区别A普通视频生成AI通常要把整段视频规划好再一次性输出等待时间长用户无法中途干预。Causal Forcing采用逐帧自回归方式边生成边输出首帧延迟只有0.27秒比前代方法快50%且用户可以实时给出新的控制指令更适合交互式应用场景。Q2因果一致性蒸馏为什么比因果ODE蒸馏训练成本低这么多A因果ODE蒸馏需要对每个训练样本都预先生成完整的48步计算路径并存储起来80,000个视频规模下需要11,600 GPU小时和1,900 GB存储。因果一致性蒸馏不需要预存路径每次训练只临时计算相邻两个时间步之间的一小步变化直接用真实视频在线训练因此只需要2,900 GPU小时额外存储为零大约节省了75%的训练时间。Q3为什么Causal DMD初始化的视频后期会崩ADMD方法优化的是反向KL散度会把概率集中在少数高置信度的结果上生成的画面初期很清晰。但在自回归视频生成中历史帧的微小误差会让后续帧的条件分布发生偏移高度集中的概率一旦偏移到低质量区域几乎所有后续帧都会跟着变差形成暴露偏差的雪崩效应。而一致性蒸馏的分布更分散对历史误差有更强的容错性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2634329.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！