谷歌与新加坡国立大学联手打造“视频导演AI“

news2026/5/14 22:18:12

这项由谷歌云AI研究院与新加坡国立大学联合完成的研究于2026年5月以预印本形式公开发布论文编号为arXiv:2605.06924v1。有兴趣深入阅读原文的读者可通过该编号在arXiv平台检索到完整论文。**研究背景AI拍视频为何总是记性不好**你有没有看过那种越来越长的AI生成视频主角的衣服颜色在第三分钟突然换了背景里的椅子凭空消失或者人物明明在室内下一秒却站在街头这不是你的错觉这是当前AI视频生成技术面临的一个根本性难题——它太容易忘事儿了。现有的AI视频工具在生成几秒钟的短片段时表现出色但当任务变成生成一分钟、五分钟乃至十分钟的长视频时问题就会接踵而至。人物的脸开始变化场景的布局开始偏移故事的逻辑开始松散。研究团队将这两种现象分别称为语义漂移和叙事崩溃——前者好比演员越演越不像自己后者好比编剧越写越忘了自己在讲什么故事。正是为了解决这个困扰业界已久的核心问题谷歌云AI研究院与新加坡国立大学的研究团队提出了一个全新的架构命名为A?RD发音类似英文单词hard中文读作阿方RD。这个名字是Agentic AutoRegressive Diffusion的缩写直译过来就是主动式自回归扩散模型。不过这些专业词汇不重要重要的是它背后的思路与其让AI被动地一段接一段生成视频不如让AI像一个有记忆、有判断力的导演一样主动地规划、生成、检查、修正每一个镜头。**一、从流水线工人到电影导演A?RD的核心理念**理解A?RD可以借助一个拍电影的比喻而且这个比喻会贯穿整篇文章。传统的AI视频生成方式就像一个没有剧本的流水线工人。他坐在工作台前只看得到面前的一小截传送带把当前这个零件装好之后传送带往前走他再装下一个。他不知道整条生产线做的是什么不知道前面发生了什么也不知道后面还要做什么。结果一个完整的产品交到最后往往是拼凑出来的东拼西凑、前后不一。A?RD则是把这个流水线工人换成了一位经验丰富的电影导演。这位导演在拍摄每一个场景之前会先翻阅剧本回看已经拍好的片段核对演员的造型档案和场景设计图然后才喊开机。拍完之后他还会在剪辑室里仔细审看刚拍好的素材检查是否有穿帮镜头如果发现问题立刻重拍。这种拍摄-检查-修正的闭环操作正是A?RD与传统方法最根本的区别。研究团队将这个导演的工作流程总结为四个步骤检索Retrieve、合成Synthesize、精炼Refine、更新Update。每拍一个片段导演先去片场档案室也就是系统的多模态视频记忆库调取相关资料然后根据资料和当前剧情选择最合适的拍摄方式拍完后交给一套层层把关的审查机制通过才更新档案库进入下一场景。值得一提的是这套系统完全不需要额外训练。就像一位导演不需要专门去学一门新技术他只是更聪明地调用和协调现有的摄像师视频生成模型、美工图像生成模型和剧本顾问大语言模型。**二、导演的档案室多模态视频记忆库**一位优秀的导演在拍长片时必须维护一套详尽的档案系统。记录每个演员在每场戏里的造型记录每个场景的灯光设置记录故事发展到了哪一步。A?RD中对应的组件叫做多模态视频记忆库简称MVMem可以把它理解为导演桌上那本厚厚的拍摄圣经。这本拍摄圣经里存放着三类核心内容。第一类是文字状态记录也就是对视频中每一个实体人物、物体和环境的详细文字描述。这不是简单的一句话概括而是结构化的、精细的状态图谱包括视觉弧线人物的外貌特征、衣着变化、动作轨迹、空间关系画面里谁站在谁左边、谁在谁前面以及摄像机运动轨迹。这种记录方式的灵感来自于计算机视觉领域对场景图的研究——把一幅图像的内容用结构化的方式表达出来而不仅仅依靠图像本身传达信息。第二类是参考帧图像。仅靠文字有时候说不清楚一件衣服的精确颜色或者一个房间的准确布局这时候图像就发挥了作用。档案库里存放了两种图像一种是在正式拍摄开始前就预先生成好的全局参考图相当于美术部门为每个角色和场景提前画好的定妆照和场景概念图另一种是每段视频的开头帧和结尾帧像书签一样标记着每个片段的视觉起点和终点。第三类是已经生成的视频片段本身。保存视频的目的主要是为了在生成后续片段时能够核实前一段视频结尾时人物和场景的运动状态确保动作能够顺滑衔接就像真正的电影剪辑要保证接戏的连贯性一样。档案库在每次生成新片段之前会根据当前场景的需要智能地筛选出最相关的历史记录而不是把所有历史信息一股脑儿全部塞给AI。这一点非常关键因为把所有历史信息都给AI看不仅计算代价高昂还可能引入干扰信息导致生成结果适得其反。这种有选择性地检索就像一个经验丰富的剧组助理知道什么时候该翻哪一页档案而不是每次都把整个档案柜翻个底朝天。在整个拍摄开始之前系统还会先专门生成一套全局参考图。导演会先把整个剧本通读一遍找出所有需要保持一致外观的角色和场景然后依次生成它们的参考图像。这个过程还考虑了依赖关系比如一个人物的定妆照应该在他所处的背景场景确定之后再生成就像拍戏时先搭好景才能给演员试装。系统会建立一个有向无环图来表示这些依赖关系并按照正确的先后顺序生成所有参考图最后再并行完成不相互依赖的部分提高效率。**三、导演的调度智慧自适应分段生成策略**一位经验老到的导演知道不是所有场景都用同一套拍法。连续的室内戏要保证流畅过渡而两场戏之间如果发生了时空跳跃就需要用另一种方式来衔接。A?RD在生成每个视频片段时也会先判断当前片段属于哪种情况然后选择最合适的生成模式。具体来说系统有两种拍摄模式。第一种叫做外推模式就是从当前片段的开头帧出发让视频自然地向前发展。这种模式适合场景连续、动作连贯的情况就像摄像机一直跟着演员走不切换场景。它的优点是视频进展自然劣势是如果画面中没有出现的细节比如演员背部的纹身在后续场景里需要出现就可能出现前后不一的情况。第二种叫做插值模式就是先分别生成这个片段的开头帧和结尾帧然后让AI去填充中间的过程就像给一个翻书动画定好第一页和最后一页让系统补全中间的过渡。这种模式对一致性的控制更强但如果开头和结尾两帧本身生成得不够自然合理中间的过渡就会显得生硬。A?RD的聪明之处在于它不强制要求全部用同一种模式而是逐个片段地做出判断。当当前片段与下一个片段处于同一个连续的时空环境中时选择外推模式当片段跨越了不同的场景、或者要跳转到一个已经在前面出现过的特定地点时选择插值模式。这个判断交给大语言模型来完成研究团队测试发现这个判断的准确率超过85%而且即使偶尔判断失误把应该用外推模式的场景误判为插值模式通常也不会导致严重问题因为图像生成模型有时候能够凭借充分的参考信息自行把一致性做好。这里有一个特别有意思的细节设计。当系统需要在插值模式下生成结尾帧而对应的场景是回到之前某个远处片段的某个状态时怎么办比如故事里的赛车在第6幕疾驰过海岸公路然后去了别的地方第12幕再度回到这条海岸公路。此时系统需要知道第6幕的赛车最后停在了哪里、是什么朝向才能顺畅接上第12幕。为了解决这个问题A?RD会从第6幕已存档的视频中提取出所有的镜头结尾帧然后让大语言模型挑出最适合作为第12幕开头的那一帧从而实现跨越较大时间跨度的运动连续性。这种机制是这篇研究中的原创贡献之一在此之前的工作都没有专门处理过这个问题。**四、导演的审片间层级化测试时自我提升机制**生成一段视频只是工作的一半。在真正的电影制作中每拍完一个镜头导演都要在监视器前盯着回放确认没有问题。如果发现穿帮立刻叫停重来。A?RD中的对应机制叫做层级化测试时自我提升简称HITS它分为两层审片室一层专门审查关键帧图像另一层专门审查生成好的视频片段。在图像审片室里系统对每一张关键帧图像进行八个维度的打分每项满分十分。这八个维度可以归入三组第一组关注跨片段一致性检查人物是否与之前的参考图保持一致、环境是否与之前的场景保持一致、叙事是否在合理地向前推进以及画面中各元素的空间逻辑是否合理第二组关注当前帧的状态准确性具体检查人物状态和环境状态是否正确第三组关注基本画面质量检查是否按照指令生成以及画面是否符合物理常识。审完之后系统会决定是微调这张图还是重新生成。选择微调时AI会给出一条具体的编辑指令比如给人物加上蓝色围巾并且每次只修改一个问题因为同时尝试修复多个问题会让编辑变得混乱。选择重新生成时系统则会先优化生成这张图时使用的文字描述也就是提示词再重新生成。最终在所有迭代版本中选出综合评分最高的那一张作为正式采用的帧。视频审片室的逻辑类似但针对视频的特点做了扩展覆盖十个维度分为三组第一组关注跨片段的动态一致性包括人物跨场景的外观一致性、环境跨场景的一致性、运动状态的一致性以及摄像机运动的一致性第二组关注片段内部的人物和环境一致性第三组关注基本视频质量包括是否遵循指令、物理合理性、叙事推进以及在插值模式下视频结尾是否自然衔接到预设的结尾帧。当处于插值模式时系统在发现问题后只需要优化提示词因为开头帧和结尾帧已经固定好了重新生成视频就能改善质量。当处于外推模式时优化提示词还不够因为问题往往出在视频末尾那些没有被开头帧覆盖的细节上。此时系统会先从已经生成的视频中提取出结尾帧把它经过微调处理后固定下来然后以这对开头帧结尾帧为锚点重新生成整段视频。这种联合优化的方式就像先把一场戏的首尾两个关键动作钉死再补全中间过程比单纯改台词要有效得多。**五、导演的经验库记忆增强提示词优化**优秀的导演还有一个特质善于从每一次拍摄经历中积累经验知道什么样的指令有效、什么样的指令会适得其反。A?RD中有一个专门的组件来模拟这种学习能力叫做记忆增强提示词优化简称MAPO。MAPO的工作方式是维护一个经验数据库里面记录着过去每一次提示词优化的完整记录原始提示词是什么优化后的提示词是什么当时的评分情况如何以及这次优化最终被标记为成功还是失败。当需要对某个提示词进行新一轮优化时系统会从数据库中找出最相似的成功案例和失败案例把它们放在一起对比从中归纳出规律性的指导原则比如把抽象的场景参照换成具体的物理锚点或者用排除法明确哪些物体不会出现在画面中。然后把这些原则应用到当前的提示词上生成优化版本。这个过程类似于拍片前让助理整理之前类似戏份的拍摄心得帮助导演避开已知的坑。论文里给出了一个生动的实际案例。原始提示词描述一位面包师从既定的四分之三右前方角度在工作台前操作背景里提到了储藏架。这个提示词有几个问题角度描述是抽象的没有给出物理参照背景元素缺乏空间顺序描述。MAPO检索到了相关成功案例提炼出了多条经验包括用具体的物理锚点替代抽象的场景参照、用排他性语句防止AI产生幻觉、按线性顺序描述环境元素等。优化后的提示词明确指出了工作台从前景斜向延伸到左后方、陶瓷碗放在后左侧、石砌烤炉居中、不锈钢水槽在烤炉左侧等具体的空间关系。优化前这张图的平均评分是6.4分优化后达到了8.3分多个维度直接满分。**六、这套系统的并行版本效率与质量之间的平衡**电影制作讲求效率有时候为了加快拍摄进度可以让多个摄制组同时开工拍不同的场景。A?RD也设计了一个并行版本叫做A?RD-Par用来在硬件允许的情况下大幅提升生成速度。在A?RD-Par中所有片段的关键帧仍然按照前后顺序依次生成这个步骤需要串行因为下一帧要参考上一帧但框架确定后所有视频片段可以并行生成。这意味着在理想硬件条件下生成速度不会随视频变长而线性增加。代价是并行版本不进行视频片段级别的自我改进这对于场景间存在环境变化的情况会带来一定的质量损失但对于场景相对稳定、人物外观一致性要求高的视频来说这个代价是可以接受的。**七、专为挑战长程一致性而生的新评测基准LVBench-C**研究团队在做实验时发现现有的视频生成评测基准普遍存在一个盲区它们测试的都是在同一个场景里保持一致而不是在角色或场景消失一段时间后重新出现时还能保持一致。这个区别至关重要因为真实的故事往往有这样的结构主角在第一幕出现然后视角切换到别人若干场景后主角再次出现这时候他的衣着造型应该和之前一致或者根据故事情节有合理的变化。为了填补这个空白研究团队构建了一个全新的评测基准命名为LVBench-CC代表挑战Challenge。这个基准包含三种类型的测试场景角色状态演变场景人物在消失一段时间后以不同的造型或状态重新出现、物体状态演变场景物体在消失后以不同的状态重新出现比如一个锅从空锅变成装满食物的锅以及环境状态演变场景场景在消失后以不同的状态重新出现比如一个灯塔房间从晴天变成暴风雨后的样子。这个基准中有一条硬性规则主要角色或场景必须消失至少10个场景片段才能重新出现。这确保了测试的确是对长程记忆的考验而不是对相邻片段一致性的简单检验。整个基准涵盖3分钟、5分钟和10分钟三种视频时长共120个完整的场景剧本。为了保证数据质量研究团队设计了一套人机协作的数据筛选流程。首先用大语言模型批量生成候选场景剧本然后去重接着用定制化的自我改进机制逐一验证剧本是否满足六项质量标准包括场景足够具体、逻辑自洽、角色行为自然、细节符合现实、内容不重复、前后不矛盾。未通过的剧本进行有限次数的迭代修改最后还引入了另一家公司的大语言模型进行交叉验证以避免同一模型自我评估时产生的偏好偏差并由研究人员人工抽样核查。**八、实验结果数字背后的故事**研究团队在公开基准VBench-Long上测试了大约一分钟长度的单场景视频生成效果同时在LVBench-C上测试了三分钟和五分钟多场景视频的生成效果并与六种基准方法进行了对比。这六种方法涵盖了当前主流的长视频生成策略包括最简单的直接逐段生成、仅靠上一段末帧续接的简单自回归方法、依靠插值框架并行生成的方法以及三种已有的多智能体长视频生成系统。在一分钟的单场景测试中A?RD在叙事连贯性上的得分达到0.90比最好的基准方法得分0.75高出了约20%。在角色跨片段一致性上A?RD达到0.74而最好的基准方法只有0.57提升幅度约为30%。环境跨片段一致性从基准的0.73提升到0.84。最令人惊喜的数字是相邻片段间的运动平滑度A?RD达到了0.9935意味着相邻两段视频的衔接几乎与同一次生成的流畅度相当这在此前的方法中是很难达到的。在三分钟和五分钟的多场景测试中所有基准方法的一致性指标相比一分钟测试都出现了明显下滑这印证了长程一致性确实是一个随时间积累而愈发严峻的问题。在三分钟测试中A?RD超越最强基准方法的幅度平均达到16%在五分钟测试中这一超越幅度约为13%。叙事连贯性方面A?RD在五分钟测试中的得分高达0.95比最强基准方法高出约10个百分点。一个有趣的观察是与一分钟测试相比多场景测试中各基准方法的叙事连贯性评分反而普遍偏高。这不是因为这些方法在长视频上表现变好了而是因为LVBench-C的多场景剧本天然带有清晰的场景切换结构而这些基准方法恰好都会强制在每个片段边界做场景切换这与剧本的节奏碰巧对应看起来叙事逻辑尚可但一致性依然不佳。研究团队还做了一个有趣的公平对比实验把基准方法也扩展到与A?RD消耗相同的计算资源生成同样多的候选视频然后选最好的。结果发现给基准方法更多计算资源确实能提升一致性但提升有限而且叙事连贯性并不总是随之改善。A?RD在同样条件下展现出了更强的以更多计算换来更好质量的潜力这得益于其多维度评判机制能够更可靠地从多个候选结果中识别出真正好的那个。研究团队还专门在A?RD框架下替换了视频生成底座分别用LTX-Video和Wan 2.2两个开源模型进行测试结果显示A?RD在这两个模型上同样能够带来显著的叙事连贯性和一致性提升在LTX-Video上叙事连贯性从0.59提升到0.79在Wan 2.2上从0.67提升到0.80验证了这套框架不依赖特定的视频生成模型具有良好的通用性。在10分钟的超长视频测试中研究团队使用了一种专门设计的一致性评估方法由大语言模型对比相关场景的关键帧来检测明显的不一致性。在LVBench-C的10分钟场景下A?RD的角色一致性保持率达到90.5%环境一致性保持率84.0%物体一致性保持率91.5%。**九、人类眼睛的评判用户研究的发现**数字可以说明很多问题但最终的检验还是来自真实的人类观看者。研究团队招募了7位经验丰富的评估员让他们对40个由不同方法生成的一分钟视频进行盲测评分评估员不知道哪个视频是哪种方法生成的从1到5分评价六个维度角色一致性、物体一致性、环境一致性、场景切换流畅性、叙事连贯性以及参考图像一致性测试时提供了参考图像的情况下。A?RD的平均综合得分为4.68分最强基准方法VideoMemory的综合得分为3.93分。在角色一致性上A?RD拿到了4.89分接近满分表明人类评估员认为角色外观保持得非常好。叙事连贯性4.75分参考图像一致性4.91分说明当用户提供了参考图像时生成的视频能够高度忠实地呈现参考图中的视觉细节。场景切换流畅性方面A?RD的得分为4.34远高于最强基准方法的3.34验证了自动指标中运动平滑度的改善在人眼看来同样明显。研究团队特别指出场景切换流畅性和物理环境一致性是所有基于分段生成方法中最难解决的维度这也是研究团队认为最值得未来继续攻关的方向。并行版本A?RD-Par在角色一致性上保持了不错的表现但在环境一致性和场景切换流畅性上明显下滑这与自动指标的结论一致说明自回归顺序生成对于视觉和时序连贯性而言是有实质意义的而不仅仅是计算方式的不同选择。**十、消融实验拆解导演的每一件工具**为了搞清楚A?RD的各个组件各自贡献了多少研究团队做了一系列拆零件实验逐一去掉某个组件看看整体表现会下降多少。去掉整个多模态视频记忆库之后系统的表现急剧下滑接近最简单的基准方法说明这个记忆库是整个系统的骨干失去它就失去了长程依赖追踪、一致性验证和自我提升的基础。分别去掉记忆库中的文字状态记录和视频存档可以看到文字状态对叙事连贯性和跨片段一致性的贡献更大视频存档主要影响运动连续性相对没那么关键。去掉HITS自我提升机制之后叙事连贯性从0.90跌到0.74角色一致性从0.74跌到0.68说明即使有了好的记忆库不经过审片和重拍质量依然会打折扣。去掉MAPO记忆增强提示词优化之后提示词的改进效果变弱整体指标也有所下滑。去掉全局参考图之后叙事连贯性和角色一致性变化不大但环境一致性从0.84跌到0.79说明环境更难维持一致对参考图的依赖更强。对生成模式的消融最有意思。强制始终使用外推模式时叙事连贯性尚可0.83但一致性下降强制始终使用插值模式时一致性更高但叙事连贯性下降到0.71。这两个极端的结果恰好说明了自适应策略的必要性一致性和叙事性并非可以同时无代价地极大化需要根据具体场景做出取舍和平衡而自适应模式正是这种平衡的实现方式。**研究的局限与诚实的自白**研究团队在论文中坦率地承认了这套系统的几个局限。首先是计算开销每个片段最多可能需要生成6段视频和6张图像加上大量的模型调用这比简单的基准方法消耗更多资源。研究团队估算在现有配置下使用Gemini 3 Flash作为推理模型每个片段的额外推理开销不超过0.5美元但额外生成的视频和图像的计算成本就取决于具体使用的视频生成服务了。其次这套系统对底层组件的能力要求较高需要一个足够强大的多模态语言模型和图像生成模型作为支撑。如果底层组件能力有限自我提升的效果也会打折扣。另外评判标准中的各项指标反映的是研究团队对好视频的理解这种理解可能不适用于所有文化背景、创作风格或专业领域。人类评估实验中部分视频只有两个人评分研究团队坦承这导致评分者一致性数据不够有意义所以没有报告这个指标。人工评估本身也具有主观性尤其是场景切换流畅性和叙事连贯性这类维度不同评估员的感受可能存在差异。归根结底这项来自谷歌云AI研究院和新加坡国立大学的研究给出了一个令人信服的答案解决AI视频生成中的记性差问题关键不是造一个更大的模型而是给现有的模型配上一套像导演一样工作的智慧调度系统。通过多模态记忆、自适应生成策略、层级化自我审查和经验积累式提示优化的组合一段十分钟的、包含复杂角色和场景变化的视频其角色一致性依然能维持在九成以上。这对于普通人意味着什么未来你或许能用自然语言描述一个故事然后由AI生成一部几分钟甚至十几分钟的高质量短片其中的人物从头到尾保持着一致的面孔和服装场景的布局始终合理故事的因果逻辑一以贯之——而这一切都不需要你懂视频制作也不需要专业级的设备和团队。---QAQ1A?RD和普通的AI视频生成工具有什么本质区别A普通AI视频工具通常是逐段生成、一旦生成就固定后续不再回头检查前面的内容也没有跨片段的记忆机制所以容易出现人物造型变化、场景穿帮等问题。A?RD的本质区别在于引入了主动的闭环机制每个片段生成后都会经过多维度自动审查不通过就修改或重新生成同时维护一个多模态记忆库持续追踪人物、物体和场景的状态实现了从被动输出到主动把关的转变。Q2LVBench-C评测基准和已有的视频评测基准有什么不同A现有的大多数评测基准只测试视频在连续播放过程中是否保持一致而LVBench-C专门设计了角色或场景消失至少10个片段后重新出现的测试场景模拟真实叙事中常见的时空跳转。它涵盖角色状态演变、物体状态演变和环境状态演变三种类型支持3分钟、5分钟和10分钟三种时长是目前针对长程循环一致性最具挑战性的评测基准之一。Q3A?RD框架能用在其他视频生成模型上吗A可以。研究团队专门在LTX-Video和Wan 2.2两个开源视频生成模型上进行了测试结果显示A?RD在这两个模型上同样能带来显著的叙事连贯性和一致性提升。这表明A?RD是一个与具体视频生成底座解耦的通用框架不需要重新训练模型只需要将其对接到支持文本加图像输入的视频生成模型上就可以使用。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2613286.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！