AMD Hummingbird-XT: 面向消费端的高性能视频生成算法

news2026/4/27 7:10:21
AMD Hummingbird-XT: 面向消费端的高性能视频生成算法原文作者Takashi Isobe, He Cui, Mengmeng Ge, Dong Zhou, Dong Li, KuanTing Lin, Chandra Yang, Wickey Wang, Emad Barsoum.引言随着近些年扩散模型的出现与快速发展[1]视频生成算法在分辨率、生成质量以及创作范式等方面均取得了令人瞩目的进展并辐射性地重塑了整个视频创作流程用户只需提供文本或图像输入视频扩散模型便可自动生成符合指令的视频内容。然而这种高度便捷的生成能力背后往往依赖于极为庞大的算力与显存开销作为支撑。受此限制当前主流的基于 Transformer 的扩散模型DiT大多部署于高算力的云端服务环境中用户需通过特定网站或软件以请求式的方式调用模型完成视频生成[2,3]。这种以算力堆叠为核心的发展路径也逐渐显现出其局限性高延迟、高成本以及对云端基础设施的强依赖使得视频生成难以真正融入广泛创作者的日常使用。在此背景下面向消费级硬件的视频生成算法开始受到广泛关注其目标是在受限的算力与显存条件下实现可实时、可本地运行的视频生成能力。为解决上述痛点本篇博客将重点介绍 Hummingbird-XT并探讨其如何对现有 DiT 视频架构进行系统性加速以主流的 Wan-2.2-5B TI2V [3]为例从而推动视频生成模型在消费端的实际落地。此外针对长视频生成场景本博客还介绍了 Hummingbird-XTX一款基于 Wan-2.1-1.3B T2V 架构的高效 DiT 模型转为长视频设计。在单卡推理条件下其理论上可生成无限长视频序列视频分辨率为 832× 480并保持线性随帧数增长的推理复杂度为流式和实时视频生成提供了可行路径。Hummingbird 系列模型的相关训练代码与数据集已向社区开源进一步丰富并完善了 AMD 的视频生成生态系统。3步去噪便可生成高质量视频扩散模型的一种加速思路是让学生扩散模型用最少的步数模拟基模型老师多在步数下的去噪轨迹。为此我们采用了一种基于分布匹配蒸馏DMD的Self-forcing变体 [4,5,6]。该方法通过让学生 DiT 模型直接模仿教师模型的去噪行为并且无需依赖真实的文本和视频对进行监督。蒸馏过程可概括为三个核心步骤1生成目标潜在表示学生模型首先通过后向模拟采样器在多个较大的扩散时间步上生成一条潜在视频轨迹其最终去噪结果被视为“纯净”的潜在目标。2构造噪声输入随机采样一个扩散时间步并向潜在表示中注入高斯噪声得到噪声潜在表示。3教师–学生分数对齐对噪声潜在表示分别应用冻结的教师分数网络和可训练的学生分数网络两者均采用无分类器引导。教师分数提供目标去噪方向而二者之间的差异构成一个 KL 风格的约束驱动学生模型逼近教师模型的更新行为。蒸馏过程中输入图像和文本提示词的质量对学生模型的生成效果起着关键作用。如图 1 所示实际数据中常见的提示词问题主要包括三类1过短提示词仅描述动作缺乏背景与外观信息容易导致运动重影2过长描述性提示词对物体与场景的细节描述冗余容易引发物体幻觉3动作与镜头描述过强过度强调动作或镜头运动导致生成不稳定和运动幅度失真。为缓解上述问题我们设计了一套系统化的数据筛选与重写流程收集约数十万对视频首帧和文本的配对样本并使用使用 Qwen-2.5-14B Instruct [7]对提示词过长的样本进行了修正。随后利用 Qwen-2.5-72B [7] 对重写后的提示词进行质量评估并过滤异常样本最终筛选得到约 7 万对高质量文本–图像数据用于步数蒸馏训练。图1蒸馏过程中使用噪声数据所引发的问题示例。第一行仅包含动作信息的短提示词导致明显的运动重影第二行过于冗长的描述性提示词引发物体幻觉第三行过度强调动作与镜头运动的提示词导致运动幅度异常及生成不稳定。为了解决这个问题我们设计了一条精心构建的 data curation数据筛选与清洗流水线。首先我们通过合并 MagicMotion [5]、OpenVid-HD [6] 和 HumanVid [7] 这三个数据集收集了约 14 万对文本–图像样本。这些数据集都提供了从视频中抽取的高质量首帧图像。然而OpenVid-HD 和 HumanVid 中的原始文本描述往往过于冗长倾向于完整描写背景和物体外观这样的风格并不适合 student-teacher generation师生式生成场景。为了提升文本描述的质量我们使用 Qwen-2.5-14B Instruct [8] 对每个样本进行重写重写时遵循以下规则直接从主要主体或场景开始描述只描述原始 caption 中明确提到的内容并聚焦在主要主体上避免使用影视摄影相关术语不引入任何新的物体、人物、动作或细节不输出分析、推理、说明性文字或操作指引不使用第一人称语言。在此基础上我们进一步使用 Qwen-2.5-72B 对重写后的 caption 进行质量评估并过滤掉异常样本最终得到约 7 万对高质量文本–图像样本用于训练。迈向高效且轻量级的视频 VAEVAE 解码器是视频扩散模型中的另一主要计算瓶颈。现有视频 VAE 往往依赖计算开销较大的 3D 卷积或注意力模块来提升重建质量[3]。为此Hummingbird-XT 引入了一种高效且轻量级的 VAE 解码器在保持与目标视频模型 VAE 相同压缩率和潜在通道数的前提下实现了与其 DiT 模型的无缝兼容。该解码器可直接替换基视频模型中的原始 VAE如 Wan-2.2-5B在保持视觉质量的同时显著降低了解码计算开销。图 2 所提出的高效轻量级 VAE 解码器架构。架构优化包含了3个核心改动1针对计算开销较大的标准 3D 卷积引入 3D 深度可分离卷积进行替换以显著降低参数量与 FLOPs2基于对解码器冗余性的观察高分辨率解码模块对重建质量更为关键而低分辨率模块存在明显计算冗余。因此仅在前三个解码器模块中采用 3D 深度可分离卷积而在最后两个模块中保留标准 3D 卷积以平衡效率与重建质量3进一步移除了注意力层并减少了各模块中的卷积层数量与潜在通道规模。在训练策略方面采用了以下两点关键设计1冻结原始 Wan-2.2 VAE 的编码器仅对压缩后的解码器进行训练使其在固定潜在空间中学习稳定的像素重建映射从而避免潜在空间坍塌问题。训练完成后该解码器可无缝集成至原始 DiT 模型中无需额外微调2引入师生蒸馏策略以进一步提升重建质量[8]利用原始 VAE 解码器前若干模块的中间特征作为教师信号引导轻量解码器学习一致的特征表示。整体训练目标由重建损失、感知损失LPIPS、KL 散度以及特征蒸馏损失共同组成。实验结果表明所提出的轻量级 VAE 解码器在显著降低计算成本的同时保持了优良的重建与生成质量并在视觉效果上优于近期的轻量级 VAE 方法如 Taehv [12]。Hummingbird-XTX高效可扩展的长视频生成图 3 Frame Sink 通过在 KV 缓存中永久保留初始帧特征作为全局锚点防止长序列生成中的色彩退化。长视频生成是视频生成领域中的一个重要子方向其目标是在更低的计算成本下生成包含更丰富时序与语义信息的视频内容。基于 Wan-2.1-1.3B [3] 的 Hummingbird-XTX 正是为应对这一需求而设计的模型为流式和实时视频生成提供了可行路径。现有的长视频生成方法大多依赖双向注意力机制在生成每一帧时都需要处理完整的视频序列导致计算复杂度随帧数呈二次增长从而难以适用于实时或流式生成场景。相比之下自回归模型[9]通过逐帧生成并结合 KV 缓存在理论上能够将推理复杂度降低至线性是实现长视频生成的理想参考。然而直接采用自回归范式会引入严重的暴露偏差模型在训练阶段依赖真实帧作为条件而在推理阶段却必须基于自身预测结果展开生成误差随时间不断累积进而迅速导致生成质量退化甚至崩溃仅对现有模型进行简单微调难以从根本上缓解这一问题。为此Hummingbird-XTX 从初始化方式与训练范式两个层面进行了系统性重设计首先引入基于常微分方程ODE[10]的初始化策略在蒸馏前利用预训练教师模型生成少量逆向扩散轨迹对学生模型进行预热使其在潜在分布层面逼近教师模型为后续自回归训练提供稳定的起点其次采用 Self-Forcing 训练范式[6]在训练阶段执行完整的自回归展开并结合训练期 KV 缓存与少步生成条件下的梯度截断使模型能够在可控的计算与显存开销下学习修正自身预测误差从而实现整体的分布匹配优化。进一步地引入 Frame Sink 机制以保留初始帧的全局信息使模型在使用短窗口注意力实现线性时间复杂度时避免长视频生成中的语义和风格漂移,实现长视频下的色彩主体一致性。长视频解码的高效分帧策略在高分辨率长视频解码过程中若直接对完整的时序特征空间应用 3D 卷积会带来过高的显存占用和计算开销。我们通过将长视频的特征空间沿时间维度拆分为多个短片段进行加速解码并提出了两种对应的分帧解码策略因果 VAE 解码器仅利用历史帧信息和非因果 VAE 解码器同时利用过去与未来帧信息。图 4长视频的两种解码策略这两类解码器均在短视频片段上完成训练在扩展至长视频解码时分别采用了不同的推理策略对于因果 VAE采用因果缓存机制将潜在序列划分为不重叠的时间片段并顺序解码同时复用前一片段的中间特征作为上下文对于非因果 VAE则采用 Tiling 分块策略将潜在序列划分为相互重叠的时间片段并对重叠区域进行线性融合以保证时间连续性。实验结果表明将非因果 VAE 解码器与 Tiling 策略相结合在显著降低显存与计算开销的同时不仅提升了重建质量还进一步加速了 Hummingbird-XT 与 Hummingbird-XTX 的推理过程。实验结果1.Hummingbird-XT 相比基模型 Wan-2.2-5B在消费级显卡上实现 33× 加速可高效生成 704×1280 分辨率、121 帧视频。已关注关注重播 分享 赞关闭观看更多更多退出全屏切换到竖屏全屏退出全屏AMD开发者中心已关注分享视频时长00:130/000:00/00:13切换到横屏模式继续播放进度条百分之0播放00:00/00:1300:13全屏倍速播放中0.5倍 0.75倍 1.0倍 1.5倍 2.0倍超清 流畅继续观看AMD Hummingbird-XT: 面向消费端的高性能视频生成算法观看更多转载,AMD Hummingbird-XT: 面向消费端的高性能视频生成算法AMD开发者中心已关注分享点赞在看已同步到看一看写下你的评论视频详情2.在 VBench-T2V 与 VBench-I2V 测试集上Hummingbird-XT 在生成质量与语义一致性以及主体与背景一致性方面均达到与基模型 Wan-2.2-5B 具有竞争力的性能。3.所提出的轻量级 VAE 在显著降低解码时间与显存占用的同时仍保持接近原始 Wan-2.2 VAE 的重建质量。4.在长视频生成任务中Hummingbird-XTX 以显著更高的 FPS 完成 300 帧视频生成并保持稳定的时序一致性。已关注关注重播 分享 赞关闭观看更多更多退出全屏切换到竖屏全屏退出全屏AMD开发者中心已关注分享视频时长00:280/000:00/00:28切换到横屏模式继续播放进度条百分之0播放00:00/00:2800:28全屏倍速播放中0.5倍 0.75倍 1.0倍 1.5倍 2.0倍超清 流畅继续观看AMD Hummingbird-XT: 面向消费端的高性能视频生成算法观看更多转载,AMD Hummingbird-XT: 面向消费端的高性能视频生成算法AMD开发者中心已关注分享点赞在看已同步到看一看写下你的评论视频详情参考工作1.Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.2.Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2023: 4195-4205.3.Wan T, Wang A, Ai B, et al. Wan: Open and advanced large-scale video generative models[J]. arXiv preprint arXiv:2503.20314, 2025.4.Zhang, Peiyuan, et al. “Fast video generation with sliding tile attention.” arXiv preprint arXiv:2502.04507 (2025).5.Li Q, Xing Z, Wang R, et al. Magicmotion: Controllable video generation with dense-to-sparse trajectory guidance[J]. arXiv preprint arXiv:2503.16421, 2025.6.Huang X, Li Z, He G, et al. Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion[J]. arXiv preprint arXiv:2506.08009, 2025.7.Hui B, Yang J, Cui Z, et al. Qwen2. 5-coder technical report[J]. arXiv preprint arXiv:2409.12186, 2024.8.Yao J, Yang B, Wang X. Reconstruction vs. generation: Taming optimization dilemma in latent diffusion models[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 15703-15712.9.Chen B, Martí Monsó D, Du Y, et al. Diffusion forcing: Next-token prediction meets full-sequence diffusion[J]. Advances in Neural Information Processing Systems, 2024, 37: 24081-24125.10.Song J, Meng C, Ermon S. Denoising diffusion implicit models[J]. arXiv preprint arXiv:2010.02502, 2020.11.Huang, Ziqi, et al. Vbench: Comprehensive benchmark suite for video generative models.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.12.Bohan O B. Taehv: Tiny autoencoder for hunyuan video[EB/OL].(2025)13.Yin T, Zhang Q, Zhang R, et al. From slow bidirectional to fast autoregressive video diffusion models[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 22963-22974.14.Yang S, Huang W, Chu R, et al. Longlive: Real-time interactive long video generation[J]. arXiv preprint arXiv:2509.22622, 2025.15.Liu K, Hu W, Xu J, et al. Rolling forcing: Autoregressive long video diffusion in real time[J]. arXiv preprint arXiv:2509.25161, 2025.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2553274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…