AIGC下一站:期待、警惕充斥着AI剪辑师的世界

news2025/8/2 21:40:49

上月底,名为“chaindrop”的 Reddit 用户,在 r/StableDiffusion subreddit 上分享了一个由人工智能生成的视频,在业内引起了不小的争议

视频中,一个由 AI 生成的丑陋畸形的 “威尔·史密斯”,以一种可怕的热情将一把意大利面条铲进嘴里。这一 “地狱般” 的视频迅速传播到其他形式的社交媒体,数字媒体和广播公司 Vice 表示该视频将 “伴随你的余生”,美国娱乐网刊 The A.V. Club 称其为 “AI 开发的自然终点”。仅在 Twitter 上,这一视频的观看次数就超过了 800 万。

下面这段动图是其中的部分内容。每一帧都以不同的角度展示了模拟的威尔·史密斯狼吞虎咽地吃着意大利面的场景。

图片

自从威尔·史密斯吃意大利面的视频疯狂传播后,互联网上就出现了斯嘉丽·约翰逊和乔·拜登吃意大利面等后续报道,甚至还有史密斯吃肉丸子的视频。尽管这些可怕的视频正在成为互联网中完美且 “恐惧” 模因素材,但就像之前的文生图以及每一种 AI 生成的内容一样,文生视频(Text2Video)正加速走进我们的生活

一、文生视频:你写脚本,我做视频

“威尔·史密斯吃意大利面”的视频出自开源 AI 工具 ModelScope 模型,创建这一视频的工作流程相当简单:仅需给出“Will Smith eating spaghetti”的提示,并以每秒 24 帧(FPS)的速度生成。

据了解,ModelScope 是一种 “文生视频” 扩散模型,经过训练可以通过分析收集到 LAION5B、ImageNet 和 Webvid 数据集中的数百万张图像和数千个视频,根据用户的提示来创建新视频。这包括来自 Shutterstock 的视频,因此在其输出上有幽灵般的 “Shutterstock” 水印,就像视频中所展示的那样。

目前,在文生视频这一赛道,国内外大厂和研究机构也在悄然竞争。早在去年 9 月 29 日,Meta 就发布了 Make-A-Video,在最初的公告页面上,Meta 展示了基于文本生成的示例视频,包括 “一对年轻夫妇在大雨中行走” 和 “一只正在画肖像的泰迪熊”。

tutieshi_640x440_4s.gif

同时,Make-A-Video 具备拍摄静态源图像并将其动画化的能力。例如,一张海龟的静止照片,一旦通过 AI 模型处理,就可以看起来像是在游泳。

仅仅在 Meta 推出 Make-A-Video 不到一周后,Google 便发布了 Imagen Video,它能够根据书面提示以每秒 24 帧的速度生成 1280×768 的高清晰视频。Imagen Video 包括几个显著的风格能力,例如根据著名画家的作品(如梵高的画作)生成视频,生成 3D 旋转对象同时保留对象结构,以及渲染文本多种动画风格。Google 希望,这一视频合成模型能够 “显著降低高质量内容生成的难度”。

image.png

随后,Google 推出了另一个文生视频模型 Phenaki。区别于 Imagen Video 主打视频品质,Phenaki 主要挑战视频长度。它可以根据详细提示创建更长的视频,实现 “有故事、有长度”。它生成任意时间长度的视频能力来源于其新编解码器 CViVIT——该模型建立在 Google 早期文生图系统 Imagen 中磨练的技术之上,但在其中加入了一堆新组件,从而可以将静态帧转换为流畅的运动。

今年 2 月 6 日,Stable Diffusion 背后的原始创业公司 Runway 推出了视频生成 AI——Gen-1 模型,可以通过使用文本提示或者参考图像所指定的任意风格,将现有视频转换为新视频,改变其视觉风格。3 月 21 日,Runway 发布 Gen-2 模型,专注于从零开始生成视频,通过将图像或文本提示的构图和样式应用于源视频的结构(视频到视频),或者,只使用文字(文生视频)。

tutieshi_640x226_3s.gif

tutieshi_640x252_2s (1).gif

二、踩在"文生图"的肩膀上

Make-A-Video 等文生视频模型背后的关键技术——以及为什么它比一些专家预期得更早到来——是因为它踩在了“文生图”技术巨人的肩膀上。

据 Meta 介绍,他们不是在标记的视频数据(例如,描述的动作的字幕描述)上训练 Make-A-Video 模型,而是采用图像合成数据(用字幕训练的静止图像)并应用未标记的视频训练数据,以便模型学习文本或图像提示在时间和空间中可能存在的位置的感觉。然后,它可以预测图像之后会发生什么,并在短时间内显示动态场景。

从 Stable Diffusion 到 Midjourney,再到 DALL·E-2,文生图模型已经变得非常流行,并被更广泛的受众使用。随着对多模态模型的不断拓展以及生成式 AI 的研究,业内近期的工作试图通过在视频领域重用文本到图像的扩散模型,将其成功扩展到文本到视频的生成和编辑任务中,使得用户能够仅仅给出提示便能得到想要的完整视频。

早期的文生图方法依赖于基于模板的生成和特征匹配等方法。然而,这些方法生成逼真和多样化图像的能力有限。在 GAN 获得成功之后,还提出了其他几种基于深度学习的文生图方法。其中包括 StackGAN、AttnGAN 和 MirrorGAN,它们通过引入新的架构和增强机制进一步提高了图像质量和多样性。

后来,随着 Transformer 的进步,出现了新的文生图方法。例如,DALL·E-2 是一个 120 亿参数的变换器模型:首先,它生成图像令牌,然后将其与文本令牌组合,用于自回归模型的联合训练。之后,Parti 提出了一种生成具有多个对象的内容丰富的图像的方法。Make-a-Scene 则通过文生图生成的分割掩码实现控制机制。现在的方法建立在扩散模型的基础上,从而将文生图的合成质量提升到一个新的水平。GLIDE 通过添加无分类器引导改进了 DALL·E。后来,DALL·E-2 利用了对比模型 CLIP:通过扩散过程,从 CLIP 文本编码到图像编码的映射,以及获得 CLIP 解码器……

这些模型能够生成具有高质量的图像,因此研究者将目光对准了开发能够生成视频的文生图模型。然而,文生视频现在还是一个相对较新的研究方向。现有方法尝试利用自回归变换器和扩散过程进行生成

例如,NUWA 引入了一个 3D 变换器编码器-解码器框架,支持文本到图像和文本到视频的生成。Phenaki 引入了一个双向掩蔽变换器和因果关注机制,允许从文本提示序列生成任意长度的视频;CogVideo 则通过使用多帧速率分层训练策略来调整 CogView 2 文生图模型,以更好地对齐文本和视频剪辑;VDM 则联合训练图像和视频数据自然地扩展了文生图扩散模型。

前面展示的 Imagen Video 构建了一系列视频扩散模型,并利用空间和时间超分辨率模型生成高分辨率时间一致性视频。Make-A-Video 在文本到图像合成模型的基础上,以无监督的方式利用了视频数据。Gen-1 则是扩展了 Stable Diffusion 并提出了一种基于所需输出的视觉或文本描述的结构和内容引导的视频编辑方法。

如今,越来越多的文生视频模型不断迭代,我们可以看到,2023 年似乎将要成为 “文生视频” 的一年。

三、生成式AI下一站:需要改进,需要警惕

尽管复用了文生图的技术与训练集,但在视频领域应用扩散模型并不简单,尤其是由于它们的概率生成过程,很难确保时间一致性。即主要主体往往在帧与帧之间看起来略有不同,背景也不一致,这使得完成的视频看起来一切都在不断运动,缺乏真实感。同时,大多数方法都需要大量的标记数据并进行大量的训练,这是极其昂贵并难以负担的。

近日,由 Picsart AI Resarch(PAIR)团队介绍的一种新颖的零样本的文本到视频生成任务,提出了一种低成本的方法,通过利用现有的文本到图像合成方法(如 Stable Diffusion),将其应用于视频领域。该研究主要进行了两个关键修改:一是为生成帧的潜在代码添加动态运动信息,以保持全局场景和背景时间的一致性;二是使用新的跨帧注意力机制,对每个帧在第一帧的关注,重新编程帧级自注意力,以保持前景对象的上下文、外观和身份。

image.png
图|Text2Video-Zero使用(i)文本提示(见第1、2行)、(ii)结合姿势或边缘指导的提示(见右下角)和(iii)视频指令-Pix2Pix,即指令引导视频编辑(见左下角),实现零样本视频生成。结果在时间上是一致的,并严格遵循指导和文本提示。

这个方法的意义在于它具有低开销,同时能生成高质量且相当一致的视频。此外,这种方法不仅适用于文本到视频合成,还适用于其他任务,如条件和内容专用视频生成,以及视频指导下的图像到图像翻译。

实验证明,这种方法在性能上可与最近的方法相媲美,甚至在某些情况下优于它们,尽管它没有在额外的视频数据上进行训练。这项技术可以用于创作动画、广告和短片,节省成本和时间。此外,它还可以在教育领域提供可视化材料,使学习变得更加生动有趣。

然而,随着不断的技术迭代,这些文生视频 AI 模型将变得更加精确、逼真和可控。就像是恐怖的 “史密斯吃意大利面” 视频一样,这些工具很可能被用来生成虚假、仇恨、露骨或有害的内容,信任与安全等问题也逐渐涌现

谷歌称,Google Imagen Video 的训练数据来自公开可用的 LAION-400M 图像文本数据集和 “1400 万个视频文本对和 6000 万个图像文本对”。尽管它已经接受了谷歌过滤的 “有问题的数据” 的训练,但仍然可能包含色情和暴力内容——以及社会刻板印象和文化偏见。

Meta 也承认,按需制作逼真的视频会带来一定的社会危害。在公告页面的底部,Meta 表示,所有来自 Make-A-Video 的人工智能生成的视频内容都包含一个水印,以 “帮助确保观众知道视频是用人工智能生成的,而不是捕获的视频”。但是,竞争性的开源文生视频模型可能会随之而来,这可能会使 Meta 的水印保护变得无关紧要。

美国麻省理工学院人工智能教授菲利普·伊索拉就表示,**如果看到高分辨率的视频,人们很可能会相信它。也有专家指出,随着人工智能语音匹配的出现,以及逐渐拥有改变和创建几乎触手可及的逼真视频的能力,伪造公众人物和社会大众的言行可能会造成不可估量的伤害。但是,“潘多拉的魔盒已经打开”,**作为生成式 AI 的下一站,文生视频的技术需要不断改进,与此同时,依然需要警惕安全与伦理风险。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/426877.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vba:消息框基础,massagebox

常量常量值说明vbOKOnly0只显示“确定”按钮(缺省值)VbOKCancel1显示“确定”和“取消”按钮VbAbortRetryIgnore2显示“终止”、“重试”和“忽略” 按钮VbYesNoCancel3显示“是”、“否”和“取消”按钮VbYesNo4显示“是”和“否”按钮VbRetryCancel5显…

pkg-config

前言 在介绍 pkg-config 之前&#xff0c;先讲一个我的经历。 有一次我想用 libgtk 库在 ubuntu 上实现一个简单的图形界面&#xff0c;就像下面代码 #include <gtk/gtk.h>int main(int argc, char *argv[]) {GtkWidget *window;gtk_init(&argc, &argv);window…

UG NX二次开发(C#)-建模-获取曲面的法矢

文章目录 1、前言2、曲面的法矢示例3、获取曲面的法矢3.1 采用 uFModl.AskFaceProps实现3.2采用 uFSo实现4、结论1、前言 在UG NX二次开发过程中,我们想获取曲面的法矢,是通过ufun函数来获取的。我们以一个平面和一个曲面来说明其开发过程。 2、曲面的法矢示例 创建一张曲…

商城系统开发方案分析

互联网的不断发展&#xff0c;电商行业已经成为了当前最重要的商业形式之一。商城系统的开发也因此而备受关注。商城系统的开发是针对B2C、B2B2C等多种商业模式&#xff0c;如用户熟知的SHOP、商派等一系列商城系统&#xff0c;将商品和服务进行在线销售的一个综合性平台。那么…

【软考备战·希赛网每日一练】2023年4月17日

文章目录一、今日成绩二、错题总结第一题第二题第三题第四题三、知识查缺题目及解析来源&#xff1a;2023年04月17日软件设计师每日一练 一、今日成绩 二、错题总结 第一题 解析&#xff1a; 第二题 解析&#xff1a; 第三题 解析&#xff1a; SCAN调度算法 也叫 “电梯”算…

RocketMQ 发送批量消息、过滤消息和事务消息

前面我们知道RocketMQ 发送延时消息与顺序消息&#xff0c;现在我们看下怎么发送批量消息、过滤消息和事务消息。 发送批量消息 限制是这些批量消息应该有相同的 topic&#xff0c;相同的 waitStoreMsgOK&#xff0c;而且不能是延时消息。 此外&#xff0c;这一批消息的总大小…

如何合理选择ClickHouse表主键

ClickHouse提供索引和数据存储的复杂机制&#xff0c;能够实现在高负载下仍有优异的读写性能。当创建MergeTree表时需要选择主键&#xff0c;主键影响大多数查询性能。本文介绍主键的工作原理&#xff0c;让我们知道如何选择合适的主键。 设置主键 MergeTree表可以设置主键&am…

香橙派5使用RK3588S内置NPU加速yolov5推理,实时识别数字达到50fps

前言&#xff1a; 香橙派5采用了RK3588S&#xff0c;内置的NPU达到了6Tops的算力&#xff0c;博主这里记录一下自己的踩坑过程&#xff0c;好不容易做出来的不能以后忘记了&#xff08;手动狗头&#xff09;。这里博主还在B站上发布了效果视频&#xff0c;大家感兴趣的话可以看…

TensorFlow 和 Keras 应用开发入门:1~4 全

原文&#xff1a;Beginning Application Development with TensorFlow and Keras 协议&#xff1a;CC BY-NC-SA 4.0 译者&#xff1a;飞龙 本文来自【ApacheCN 深度学习 译文集】&#xff0c;采用译后编辑&#xff08;MTPE&#xff09;流程来尽可能提升效率。 不要担心自己的形…

Java 中的 非并发容器

1.四大类容器 java中容器主要有四大类&#xff0c;如下图所示 2.非并发容器 1) List 类 List 类 不支持并发的有 ArrayList 与 LinkedList ArrayList 底层实现 ArrayList 底层为 数组&#xff0c;由于数组的特性&#xff0c;非常适合用于 查询多&#xff0c;增删改的业务…

【数据结构学习1】数据结构

目录数据结构定义数据结构的构成逻辑结构逻辑结构的类型存储结构数据运算数据类型和抽象数据类型算法定义分析基础时间复杂度分析事前分析估算法 -> 分析算法的执行时间时间复杂度时间复杂度类型简化的算法时间复杂度分析空间复杂度分析数据结构 定义 数据&#xff1a;所有…

工作流调度系统 Azkaban介绍与安装(一)

文章目录前言1、为什么要用工作流调度系统2、常见的工作流调度系统1 集群规划2 配置 MySQL3 配置 Executor Server3.1 修改 azkaban.properties3.2 启动3.3 激活4 配置 Web Server4.1 修改 azkaban.properties4.2 修改azkaban-users.xml文件&#xff0c;添加 atguigu 用户4.3 启…

VM 虚拟机没有网络,无法Ping通

场景&#xff1a; 虚拟机用过&#xff0c;之前一切正常&#xff0c;使用NAT模式联网&#xff0c;配置了静态IP换了路由器&#xff0c;推测是主机IP网段变了无法使用ssh工具连接虚拟机&#xff0c;且相互都ping不通&#xff08;后来经历了主机可以ping通虚拟机&#xff0c;虚拟…

PWM寄存器初始化

本模块主要实现输出频率占空比可调的 PWM 波形功能和输入捕获功能&#xff0c;同时也可作为计数器使用。一、主要特性 1. 16位向上或向下计数器&#xff1b; 2. 支持最多6路PWM通道&#xff1b; 3. 每个通道支持输出比较或边缘对齐PWM模式波形输出&#xff0c;支持设置、清除、…

关于 CSDN-AI 机器人 programmer_ada —— 阿达·洛夫莱斯(Ada Lovelace)

收到早期文章的一条新评论&#xff1a; 文笔和内容稍稍透漏着机器人的风格&#xff0c;打开主页果不其然 看到个人介绍中的巴贝奇的分析机&#xff0c;突然觉得头像很是眼熟。 最近刚读了《人工智能简史》&#xff0c;第4章——从汇编语言到TensorFlow&#xff0c;人工智能的…

使用layui组件库制作进度条

使用layui组件库制作进度条 html代码 <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>Example</title><!-- 引入 layui 的 CSS 文件 --><link rel"stylesheet" href"https://cdn.staticfil…

Day948.组件化成熟度评估,你的目的地在哪里呢 -系统重构实战

组件化成熟度评估&#xff0c;你的目的地在哪里呢 Hi&#xff0c;我是阿昌&#xff0c;今天学习记录的是关于组件化成熟度评估&#xff0c;你的目的地在哪里呢的内容。 一、组件化成熟度模型 组件化成熟度模型可以帮助咱全局去思考当前的现状&#xff0c;并制定更有针对性的…

ChatGPT带火的百万年薪职业究竟是什么?

对话有ChatGPT、画图有Midjourney&#xff0c;哪怕被封号了&#xff0c;国内的文心一言、通义千问也不遑多让。 ChatGPT等生成式AI工具涌现程度堪比“乱花渐欲迷人眼”。 拟一份演讲稿&#xff0c;画一张海报&#xff0c;做一份PPT大纲&#xff0c;生成个图表&#xff0c;敲一…

【数据结构】- 线性表+顺序表(上)

文章目录前言一、线性表二、顺序表2.1概念及结构2.2接口实现2.3具体实现总结前言 所有的失败都是上帝在考验你是否真的热爱 本章是关于数据结构中的顺序表和链表 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、线性表 线性表&#xff08;linear …

Xilinx CDC Constraints(ug903: Chapter6 )

&#xff08;1&#xff09;About CDC Constraints 跨时钟域约束适用于具有不同启动和捕获时钟的定时路径。根据启动和捕获时钟的关系以及在CDC路径上设置的时序异常&#xff0c;有同步CDC和异步CDC。例如&#xff0c;同步时钟之间但被错误路径约束覆盖的CDC路径不被定时…