【AIGC-图片生成视频系列-3】AI视频随心而动:MotionCtrl的相机运动控制和物体运动控制

news2025/7/11 1:11:41

最近,「单张图片生成视频」相关工作很多,但运动控制的准确性依旧是个挑战,包括相机运动的控制以及物体运动控制。

然,MotionCtrl 横空出世。

一. 项目简介

MotionCtrl——一个相机运动控制、物体运动控制的视频工具,由国内ARC实验室、腾讯PCG、香港大学、腾讯人工智能实验室、清华大学、 上海人工智能实验室、广东工业大学的团队成员共同研究发布。

代码开源。

项目及演示:MotionCtrl

论文:https://arxiv.org/pdf/2312.03641.pdf

GitHub - TencentARC/MotionCtrlGitHub:GitHub - TencentARC/MotionCtrl

在线演示:https://huggingface.co/spaces/TencentARC/MotionCtrl

二. 主要贡献

  • MotionCtrl 提出一个用于视频生成的统一且灵活的运动控制方法,可以实现独立有效地管理生成视频中的相机运动和物体运动。
  • MotionCtrl可以部署在LVDM [1] / VideoCrafter1 [2](LVDM的改进版本),AnimateDiff [3]上以及SVD [4]。
  • MotionCtrl 能够指导视频生成模型在给定一系列相机姿势的情况下 创建具有复杂相机运动的视频。
  • MotionCtrl 可以指导视频生成模型生成具有特定对象运动的视频,提供对象轨迹。
  • 这些结果只需一个统一训练的模型即可生成。

三. 摘要

通常,视频中的运动主要包括由相机运动引起的相机运动和由物体运动引起的物体运动。准确控制相机和物体运动对于视频生成至关重要。

然而,现有的工作要么主要关注一种运动类型,要么没有明确区分两者,限制了它们的控制能力和多样性。

因此,MotionCtrl提出一种用于视频生成的统一且灵活的运动控制方法,旨在有效且独立地控制相机和物体运动。

MotionCtrl的架构和训练策略经过精心设计,考虑到相机运动、物体运动和不完美训练数据的固有属性。

与之前的方法相比,MotionCtrl具有三个主要优点:

1)它可以有效且独立地控制相机运动和物体运动,从而实现更细粒度的运动控制,并促进两种运动的灵活多样的组合。

2)它的运动条件由相机位姿和轨迹决定,它们与外观无关,并且对生成视频中对象的外观或形状的影响最小。

3)它是一个相对通用的模型,经过训练后可以适应各种相机姿势和轨迹。进行了大量的定性和定量实验来证明 MotionCtrl 相对于现有方法的优越性。

四. 实现方法和管线

MotionCtrl 使用相机运动控制模块 (CMCM) 和物体运动控制模块 (OMCM) 扩展了 LVDM 的去噪 U-Net 结构。如图 (b) 所示,CMCM 将相机姿态序列RT与 LVDM 的时序transformer集成在一起。

具体方法是将RT附加到第二个自注意力模块的输入,并应用定制的轻量级全连接层来提取相机姿态特征以进行后续处理。OMCM 利用卷积层和下采样从Trajs中导出多尺度特征,这些特征在空间上合并到 LVDM 的卷积层中以指导对象运动。

进一步,给出一个文本提示,LVDM 从与prompt相对应的噪声中生成视频,并且生成视频的背景和物体运动反映了指定的相机姿势和轨迹。

五. 基于 LVDM [1] / VideoCrafter1 [2]的结果

值得注意的是,所有结果,包括相机运动、物体运动以及这两种运动的组合的结果,都是通过一个统一的训练模型获得的。

(A) 相机运动控制

(a) MotionCtrl 生成具有复杂相机运动的视频。

(b) MotionCtrl 使用8 种基本相机动作生成视频。

(c) MotionCtrl可以细粒度地调整生成视频的摄像机运动。

(B) 物体运动控制

MotionCtrl在给定单个或多个对象轨迹的情况下生成具有特定对象运动的视频。

(C) 相机+物体运动控制

MotionCtrl可以同时控制相机和物体的运动。

MotionCtrl 生成的视频中的摄像机或对象运动与参考视频或给定轨迹完全一致,同时保持自然的外观

(D) 与VideoComposer的比较[5]

六. 基于 AnimateDiff [3]的结果

值得注意的是,所有的结果,包括相机运动和物体运动的结果,都是通过一个统一的训练模型获得的。

(A) 相机运动控制

(a) 有8 种基本相机运动的结果。

(b) 存在以不同速度放大和缩小的结果。

(b) 存在复杂相机运动的结果。

(B) 物体运动控制

特定物体运动的结果。

参考

[1] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, and Qifeng Chen. Latent video diffusion models for high-fidelity long video generation. arXiv preprint arXiv:2211.13221, 2023.

[2] Chen H, Xia M, He Y, et al. Videocrafter1: Open diffusion models for high-quality video generation[J]. arXiv preprint arXiv:2310.19512, 2023.

[3] Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, and Bo Dai. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725, 2023.

[4] Blattmann A, Dockhorn T, Kulal S, et al. Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[J]. arXiv preprint arXiv:2311.15127, 2023.

[5] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. Videocomposer: Compositional video synthesis with motion controllability. arXiv preprint arXiv:2306.02018, 2023.


欢迎加入AI杰克王的免费知识星球,海量干货等着你,一起探讨学习AIGC!

移步公众号 「AI杰克王」,更多干货

喜欢的话就点个【赞】呗,您的鼓励和认可是我继续创作的动力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1345109.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WEB渗透—PHP反序列化(十一)

Web渗透—PHP反序列化 课程学习分享(课程非本人制作,仅提供学习分享) 靶场下载地址:GitHub - mcc0624/php_ser_Class: php反序列化靶场课程,基于课程制作的靶场 课程地址:PHP反序列化漏洞学习_哔哩…

如何在iterm2的命令行中快速移动

文章目录 一、打开Preferences设置二、进行key的映射三、修改键值四、参考文献 一、打开Preferences设置 二、进行key的映射 三、修改键值 四、参考文献 Mac下iTerm2光标按照单词快速移动设置

《企业数据资源相关会计处理暂行规定》学习笔记

附:2023年数据资源入表白皮书下载: 关注WX公众号: commindtech77, 获得数据资产相关白皮书下载地址 1. 回复关键字:数据资源入表白皮书 下载 《2023数据资源入表白皮书》 2. 回复关键字:光大银行 下载 光…

AIGC与计算机技术:人工智能生成内容的深度探索

AIGC与计算机技术:人工智能生成内容的深度探索 摘要:随着人工智能技术的快速发展,AIGC(人工智能生成内容)成为了计算机领域的前沿话题。本文将详细探讨AIGC的基本原理、技术应用和未来发展趋势,以及它对计…

OpenCV(Python)基础—9小时入门版

OpenCV(Python)基础—9小时入门版 # # Author : Mikigo # Time : 2021/12/1 # 一、一句话简介 OpenCV (Open Source Computer Vision Library) 是用 C 语言编写,提供 Python、Java 等语言 API的一个开源计算机视觉库。 二、安装 1、Debian 系使用 apt 安装 O…

Zookeeper-Zookeeper应用场景实战

1. Zookeeper Java客户端实战 ZooKeeper应用的开发主要通过Java客户端API去连接和操作ZooKeeper集群。 可供选择的Java客户端API有: ZooKeeper官方的Java客户端API。 第三方的Java客户端API,比如Curator。 ZooKeeper官方的客户端API提供了基本的操作…

【Transformer】深入理解Transformer模型1——初步认识了解

前言 Transformer模型出自论文:《Attention is All You Need》 2017年 近年来,在自然语言处理领域和图像处理领域,Transformer模型都受到了极为广泛的关注,很多模型中都用到了Transformer或者是Transformer模型的变体&#xff0…

jmeter函数助手-常用汇总

一.函数助手介绍 1.介绍及作用 介绍: jmeter自带的一个特性,可以通过指定的函数规则创建后进行调用该函数,在后续接口请求参数中进行调用 作用 (1)做参数化。 2.如何使用 jmeter工具栏-->工具-->函数助手…

【用户增长】引言:浅析游戏运营用户增长概念

1 游戏发行运营中的主要职能: ​ 一、发行运营通识l 运营介绍:职能分工、发行运营流程、职业发展能力及要求l 品类认知:行业品类布局、品类用户画像、运营节奏及特性,包含不同品类核心打法及长线运营思路l 海外运营:海…

旭日X3派开发板部署自己的yolov5模型

目录 使用Docker环境Docker镜像使用Docker配置阿里云镜像源准备模型和数据集模型验证模型转换模型准备准备校准数据转换模型 模型上板运行运行示例程序 模型调优 参考:AI工具链 环境部署,地平线X3J3算法工具链手册环境安装 使用Docker环境 在完成Docke…

Python中property特性属性是什么

在Java中,通常在类中定义的成员变量为私有变量,在类的实例中不能直接通过对象.属性直接操作,而是要通过getter和setter来操作私有变量。 而在Python中,因为有property这个概念,所以不需要写getter和setter一堆重复的代…

Java介绍

Java 是一门纯粹的面向对象编程语言,它吸收了C的各种优点,还努力摒弃了C里难以理解的多继承、指针等概念,真正地实现了面向对象理论,因而具有功能强大和简单易用两个特征。 除了基础语法之外,Java还有许多必须弄懂的特…

接口自动化测试之接口数据依赖

一般在做自动化测试时,经常会对一整套业务流程进行一组接口上的测试,这时候接口之间经常会有数据依赖,那又该如何继续呢? 那么有如下思路: 抽取之前接口的返回值存储到全局变量字典中。初始化接口请求时,…

【办公技巧】怎么批量提取文件名到excel

Excel是大家经常用来制作表格的文件,比如输入文件名,如果有大量文件需要输入,用张贴复制或者手动输入的方式还是很费时间的,今天和大家分享如何批量提取文件名。 打开需要提取文件名的文件夹,选中所有文件&#xff0c…

.FileZilla的使用和主动模式被动模式介绍

FileZilla的使用和主动模式被动模式介绍 1.FileZilla的使用和主动模式被动模式介绍1.安装下载2.新建组和用户2.1打开后出现如下界面2.2点击编辑打开组这个选项2.3点击添加组以后,点击确认2.4输入组的名称,列如我输入的niyin2.5点击用户选项2.6像上面一样…

ArkUI按钮组件深入学习:通过点击按钮实现图片大小调整效果

文章目录 前言Button组件控制 Button 样式实现点击按钮改变图片大小文章总结技术回顾前言 在前面几节课中,我们已经学习了 ArkUI 提供的一些常见组件,通过一个小案例实现了 image text 和 text input 组件的使用。我们成功地让用户通过输入来改变图片的宽度,从而实现了一个…

算法训练营Day26

#Java #全排列 #回溯 开源学习资料 Feeling and experiences: 递增子序列:力扣题目链接 给你一个整数数组 nums ,找出并返回所有该数组中不同的递增子序列,递增子序列中 至少有两个元素 。你可以按 任意顺序 返回答案。 数组…

基于ssm社区生鲜电商平台论文

目 录 摘 要 I Abstract II 1 绪论 1 1.1研究背景 1 1.2研究现状 1 1.3研究内容 2 2 相关技术简介 3 2.1 B/S结构 3 2.2 MYSQL数据库 3 2.3 Java简介 4 2.4 SSM框架简介 5 3 系统分析 7 3.1 可行性分析 7 3.1.1 技术可行性 7 3.1.2 经济可行性 7 3.1.3 操作可行性 7 3.1.3 法律…

GBASE南大通用-GBase 8s数据库日志模式及切换

一、 GBase 8s数据库共有以下 4 种日志模式:无日志模式、缓冲日志模式、无缓冲日志模式、ANSI 模式。详细介绍如下: 1、无日志模式(Non logging): 采用无日志模式时,所有 DML 操作都不会被记录到日志中&…

SQL Server 存储过程 触发器 事务处理

CSDN 成就一亿技术人! 难度指数:* * CSDN 成就一亿技术人! 目录 1. 存储过程的作用 创建存储过程 2. 触发器 触发器的种类 insert触发器 update触发器 delete触发器 测试 3. 事务 开始事务 提交事务 回滚事务 举个实例 在 SQ…