【字节拥抱开源】字节团队开源视频模型 ContentV: 有限算力下的视频生成模型高效训练

【字节拥抱开源】字节团队开源视频模型 ContentV: 有限算力下的视频生成模型高效训练

news2026/5/18 2:47:59

本项目提出了ContentV框架，通过三项关键创新高效加速基于DiT的视频生成模型训练：

极简架构设计，最大化复用预训练图像生成模型进行视频合成
系统化的多阶段训练策略，利用流匹配技术提升效率
经济高效的人类反馈强化学习框架，无需额外人工标注即可提升生成质量

我们开源的80亿参数模型（基于Stable Diffusion 3.5 Large和Wan-VAE）仅用4周时间在256×64GB NPU上训练，就取得了VBench评测85.14分的业界最佳成绩。

在这里插入图片描述

在这里插入图片描述

⚡ 快速开始

推荐PyTorch版本

GPU版本：torch >= 2.3.1 (CUDA >= 12.2)
NPU版本：torch和torch-npu >= 2.1.0 (CANN >= 8.0.RC2)。请参考昇腾PyTorch扩展安装torch-npu。

安装步骤

git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

文生视频

## For GPU
python3 demo.py
## For NPU
USE_ASCEND_NPU=1 python3 demo.py

24GB消费级显卡可以使用，建议开启model offload。

📊 VBench

Model	Total Score	Quality Score	Semantic Score	Human Action	Scene	Dynamic Degree	Multiple Objects	Appear. Style
Wan2.1-14B	86.22	86.67	84.44	99.20	61.24	94.26	86.59	21.59
ContentV (Long)	85.14	86.64	79.12	96.80	57.38	83.05	71.41	23.02
Goku†	84.85	85.60	81.87	97.60	57.08	76.11	79.48	23.08
Open-Sora 2.0	84.34	85.40	80.12	95.40	52.71	71.39	77.72	22.98
Sora†	84.28	85.51	79.35	98.20	56.95	79.91	70.85	24.76
ContentV (Short)	84.11	86.23	75.61	89.60	44.02	79.26	74.58	21.21
EasyAnimate 5.1	83.42	85.03	77.01	95.60	54.31	57.15	66.85	23.06
Kling 1.6†	83.40	85.00	76.99	96.20	55.57	62.22	63.99	20.75
HunyuanVideo	83.24	85.09	75.82	94.40	53.88	70.83	68.55	19.80
CogVideoX-5B	81.61	82.75	77.04	99.40	53.20	70.97	62.11	24.91
Pika-1.0†	80.69	82.92	71.77	86.20	49.83	47.50	43.08	22.26
VideoCrafter-2.0	80.44	82.20	73.42	95.00	55.29	42.50	40.66	25.13
AnimateDiff-V2	80.27	82.90	69.75	92.60	50.19	40.83	36.88	22.42
OpenSora 1.2	79.23	80.71	73.30	85.80	42.47	47.22	58.41	23.89

❤️ 感谢

Stable Diffusion 3.5 Large
Wan2.1
Diffusers
HuggingFace

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2406366.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

本地部署drawDB结合内网穿透技术实现数据库远程管控方案

本地部署drawDB结合内网穿透技术实现数据库远程管控方案

文章目录前言1. Windows本地部署DrawDB2. 安装Cpolar内网穿透3. 实现公网访问DrawDB4. 固定DrawDB公网地址前言在数字化浪潮席卷全球的背景下，数据治理能力正日益成为构建现代企业核心竞争力的关键因素。无论是全球500强企业的数据中枢系统，还是初创…

阅读更多...

可视化预警系统：如何实现生产风险的实时监控？

可视化预警系统：如何实现生产风险的实时监控？

在生产环境中，风险无处不在，而传统的监控方式往往只能事后补救，难以做到提前预警。但如今，可视化预警系统正在改变这一切！它能够实时收集和分析生产数据，通过直观的图表和警报，让管理者第一时间…

阅读更多...

多模态大语言模型arxiv论文略读（112）

多模态大语言模型arxiv论文略读（112）

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models ➡️ 论文标题：Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models ➡️ 论文作者：Jea…

阅读更多...

【向量库】Weaviate概述与架构解析

【向量库】Weaviate概述与架构解析

文章目录一、什么是weaviate二、High-Level Architecture1. Core Components2. Storage Layer3. 组件交互流程三、核心组件1. API Layer2. Schema Management3. Vector Indexing3.1. 查询原理3.2. 左侧：Search Process（搜索流程）3.3. 右侧&…

阅读更多...

统计按位或能得到最大值的子集数目

统计按位或能得到最大值的子集数目

我们先来看题目描述： 给你一个整数数组 nums ，请你找出 nums 子集按位或可能得到的最大值 ，并返回按位或能得到最大值的不同非空子集的数目。如果数组 a 可以由数组 b 删除一些元素（或不删除）得到，…

阅读更多...

vue3 手动封装城市三级联动

vue3 手动封装城市三级联动

要做的功能示意图是这样的，因为后端给的数据结构不足以使用ant-design组件的联动查询组件所以只能自己分装组件当然这个数据后端给的不一样的情况下可能组件内对应的逻辑方式就不一样毕竟是三个数组省份城市区域我直接粘贴组件代码了 <temp…

阅读更多...

Linux【5】-----编译和烧写Linux系统镜像（RK3568）

Linux【5】-----编译和烧写Linux系统镜像（RK3568）

参考：讯为 1、文件系统不同的文件系统组成了：debian、ubuntu、buildroot、qt等系统每个文件系统的uboot和kernel是一样的 2、源码目录介绍目录 3、正式编译编译脚本build.sh 帮助内容如下： Available options: uboot …

阅读更多...

Heygem50系显卡合成的视频声音杂音模糊解决方案

Heygem50系显卡合成的视频声音杂音模糊解决方案

如果你在使用50系显卡有杂音的情况，可能还是官方适配问题，可以使用以下方案进行解决： 方案一：剪映替换音色（简单适合普通玩家） 使用剪映换音色即可，口型还是对上的，没有剪映vip的&…

阅读更多...

Gitlab + Jenkins 实现 CICD

Gitlab + Jenkins 实现 CICD

CICD 是持续集成（Continuous Integration, CI）和持续交付/部署（Continuous Delivery/Deployment, CD）的缩写，是现代软件开发中的一种自动化流程实践。下面介绍 Web 项目如何在代码提交到 Gitlab 后，自动发布…

阅读更多...

无头浏览器技术：Python爬虫如何精准模拟搜索点击

无头浏览器技术：Python爬虫如何精准模拟搜索点击

1. 无头浏览器技术概述 1.1 什么是无头浏览器？ 无头浏览器是一种没有图形用户界面（GUI）的浏览器，它通过程序控制浏览器内核（如Chromium、Firefox）执行页面加载、JavaScript渲染、表单提交等操作。由于不渲…

阅读更多...

SDU棋界精灵——硬件程序ESP32实现opus编码

SDU棋界精灵——硬件程序ESP32实现opus编码

一、音频处理框架该项目基于Espressif的音频处理框架构建，核心组件包括 ESP-ADF 和 ESP-SR，以下是完整的音频处理框架实现细节： 1.核心组件 (1) 音频前端处理 (AFE - Audio Front-End) main/components/audio_pipeline/afe_processor.c功能：声学回声…

阅读更多...

Spring AI中使用ChatMemory实现会话记忆功能

Spring AI中使用ChatMemory实现会话记忆功能

文章目录 1、需求2、ChatMemory中消息的存储位置3、实现步骤1、引入依赖2、配置Spring AI3、配置chatmemory4、java层传递conversaionId 4、验证5、完整代码6、参考文档 1、需求我们知道大型语言模型 （LLM） 是无状态的，这就意味着他们不会保…

阅读更多...

Qt 按钮类控件（Push Button 与 Radio Button）（1）

Qt 按钮类控件（Push Button 与 Radio Button）（1）

文章目录 Push Button前提概要API接口给按钮添加图标给按钮添加快捷键 Radio ButtonAPI接口性别选择 Push Button（鼠标点击不放连续移动快捷键） Radio Button Push Button 前提概要 1. 之前文章中所提到的各种跟QWidget有关的各种属性/函数/方法&#…

阅读更多...

$生成对抗网络（GAN）损失函数解读$

生成对抗网络（GAN）损失函数解读

GAN损失函数的形式： 以下是对每个部分的解读： 1. ⁡, ：这个部分表示生成器（Generator）G的目标是最小化损失函数。 ：判别器（Discriminator）D的目标是最大化损失函数。 GAN的训…

阅读更多...

汇编语言学习（三）——DoxBox中debug的使用

汇编语言学习（三）——DoxBox中debug的使用

目录一、安装DoxBox，并下载汇编工具（MASM文件） 二、debug是什么三、debug中的命令一、安装DoxBox，并下载汇编工具（MASM文件） 链接： https://pan.baidu.com/s/1IbyJj-JIkl_oMOJmkKiaGQ?pw…

阅读更多...

数据可视化交互

数据可视化交互

目录【实验目的】【实验原理】【实验环境】【实验步骤】一、安装 pyecharts 二、下载数据三、实验任务实验 1：AQI 横向对比条形图代码说明： 运行结果： 实验 2：AQI 等级分布饼图实验 3：多城市 AQI…

阅读更多...

安宝特方案丨从依赖经验到数据驱动：AR套件重构特种装备装配与质检全流程

安宝特方案丨从依赖经验到数据驱动：AR套件重构特种装备装配与质检全流程

在高压电气装备、军工装备、石油测井仪器装备、计算存储服务器和机柜、核磁医疗装备、大型发动机组等特种装备生产型企业，其产品具有“小批量、多品种、人工装配、价值高”的特点。生产管理中存在传统SOP文件内容缺失、SOP更新不及、装配严重依赖个人经验、产品装…

阅读更多...

【JavaEE】万字详解HTTP协议

【JavaEE】万字详解HTTP协议

HTTP是什么？-----互联网的“快递小哥” 想象我们正在网上购物：打开淘宝APP，搜索“蓝牙耳机”，点击商品图片，然后下单付款。这一系列操作背后，其实有一个看不见的“快递小哥”在帮我们传递信息，…

阅读更多...

华为云Flexus+DeepSeek征文 | MaaS平台避坑指南：DeepSeek商用服务开通与成本控制

华为云Flexus+DeepSeek征文 | MaaS平台避坑指南：DeepSeek商用服务开通与成本控制

作者简介我是摘星，一名专注于云计算和AI技术的开发者。本次通过华为云MaaS平台体验DeepSeek系列模型，将实际使用经验分享给大家，希望能帮助开发者快速掌握华为云AI服务的核心能力。目录作者简介前言一、技术架构概览 1.1 整体架构设…

阅读更多...

【动态规划】B4336 [中山市赛 2023] 永别|普及+

【动态规划】B4336 [中山市赛 2023] 永别|普及+

B4336 [中山市赛 2023] 永别题目描述你做了一个梦，梦里有一个字符串，这个字符串无论正着读还是倒着读都是一样的，例如： a b c b a \tt abcba abcba 就符合这个条件。但是你醒来时不记得梦中的字符串是什么，只记得…

阅读更多...

推荐文章

最新文章