【论文精读】2024 CVPR--Upscale-A-Video现实世界视频超分辨率(RealWorld VSR)

news2025/6/3 1:11:59

文章目录

  • 一、摘要
  • 二、挑战
  • 三、Method
    • 3.1 前置知识
      • 3.1.1 预训练SD ×4 Upscaler
      • 3.1.2 Inflated 2D Convolution 扩展2D卷积
    • 3.2 Local Consistency within Video Segments 视频片段中的一致性
      • 3.2.1 微调时序U-Net
      • 3.2.2 微调时序VAE-Decoder
    • 3.3 跨片段的全局一致性 Global Consistency cross Video Segments
      • 3.3.1 无训练的递归隐码传播 Training-Free Recurrent Latent Propagation
    • 3.4 Inference with Additional Conditions
  • 四、实验设置
    • 4.1 数据集
  • 贡献总结

论文全称: Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution
代码路径: https://github.com/sczhou/Upscale-A-Video
更多RealWolrd VSR整理在 https://github.com/qianx77/Video_Super_Resolution_Ref

一、摘要

基于文本的扩散模型在生成和编辑方面表现出了显著的成功,显示出利用其生成先验增强视觉内容的巨大潜力。然而,由于对输出逼真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,而这一点又因扩散模型固有的随机性而变得更加复杂。我们的研究引入了Upscale-A-Video,一种用于视频上采样的文本引导的潜在扩散方法。该框架通过两个关键机制确保时间一致性:局部上,它将时间层集成到U-Net和VAE-解码器中,保持短序列内的一致性;全局上,在不进行训练的情况下,引入了一个流引导的递归潜在传播模块,通过在整个序列中传播和融合潜在信息来增强整体视频的稳定性。得益于扩散范式,我们的模型还提供了更大的灵活性,允许文本提示引导纹理生成,并通过可调节的噪声水平平衡修复与生成,从而实现逼真度与生成质量之间的权衡。大量实验表明,Upscale-A-Video在合成和现实世界基准测试中,以及在人工智能生成的视频中,都超过了现有的方法,展现出令人印象深刻的视觉真实感和一致性。

二、挑战

扩散去噪过程由于其固有的随机特性,在应用于视频任务时面临重大挑战。这些挑战包括时间不稳定性和闪烁伪影的出现,这在涉及较长视频序列的VSR任务中尤为明显。这些任务的复杂性不仅在于实现局部片段内的一致性,还在于在整个视频中保持连贯性。

三、Method

图片

3.1 前置知识

3.1.1 预训练SD ×4 Upscaler

使用预训练SD ×4 Upscaler,扩散的优化目标,UNet预测噪声
图片

3.1.2 Inflated 2D Convolution 扩展2D卷积

要将2D扩散模型用在视频任务上,需要将2D卷积扩展到3D卷积,增加额外的时间层(temporal layers),目标是继承单帧图像生成能力,增加时序连续性。

3.2 Local Consistency within Video Segments 视频片段中的一致性

其他方法:3D convolutions、temporal attention、cross-frame attention保证时序一致性

3.2.1 微调时序U-Net

如图2所示,
1、增加基于3D卷积的3D residual blocks作为时序层,插入预训练空间层中
2、时间注意力层沿时间维度执行自注意力,并关注所有局部帧。
3、加入了旋转位置嵌入(RoPE)[60],以便为模型提供时间的位置信息。
4、训练时候冻结2D结构的参数,保证单帧的生成效果

3.2.2 微调时序VAE-Decoder

如图2所示
1、同样加入3D residual blocks保证低级尺度的一致性
2、从输入通过Spatial Feature Transform (SFT)模块引入到VAE-Decoder第一层
3、同样只训练新添加的时序3D结构
4、损失函数用到L1 loss、 LPIPS perceptual loss 、 adversarial loss

3.3 跨片段的全局一致性 Global Consistency cross Video Segments

片段内一致性可以满足了,但是跨片段的一致性还是个问题,需要引入其他方式

3.3.1 无训练的递归隐码传播 Training-Free Recurrent Latent Propagation

1、RAFT计算光流optical flow

还需要计算有效区域,误差函数
图片
示意图如下

图片
通过光流来更新掩码
图片
M是有效区域,β是光流信息的利用程度,通过选择默认值0.5
在推断过程中,并不需要在每个扩散步骤中应用此模块。相反,我们可以选择 T ∗ 步骤进行潜在传播和聚合。在处理轻微的视频抖动时,可以选择在扩散去噪过程中较早整合此模块,而对于严重的视频抖动,例如 AIGC 视频,最好在去噪过程的后期执行此模块。(为什么?)

3.4 Inference with Additional Conditions

调整文本提示和噪声水平的附加条件,以影响去噪扩散过程。

四、实验设置

4.1 数据集

1、subset of WebVid10M 335k 分辨率336×596
2、YouHQ dataset
3、额外增加的高质量数据集 large-scale high-definition (1080 × 1920) dataset from YouTube, containing around 37K video clips

LQ采用RealBasicVSR

贡献总结

1、局部一致性和全局一致性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2394341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学术合作交流

想找志同道合的科研小伙伴!研究方向包括:计算机视觉(CV)、人工智能(AI)、目标检测、行人重识别、行人搜索、虹膜识别等。欢迎具备扎实基础的本科、硕士及博士生加入,共同致力于高质量 SCI 期刊和…

【LUT技术专题】图像自适应3DLUT

3DLUT开山之作: Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time(2020 TPAMI ) 专题介绍一、研究背景二、图像自适应3DLUT方法2.1 前置知识2.2 整体流程2.3 损失函数的设计 三、实验结果四、局限五、总结…

德拜温度热容推导

目录 一、背景与基本假设 一、态密度的定义 二、从波矢空间出发 三、振动模式数与波矢体积关系 四、模式总数计算 五、态密度求导 六、德拜频率确定与归一化条件 二、内能表达式的推导 三、态密度代入与变量替换 四、求比热容 五、低温时() …

【iOS】源码阅读(五)——类类的结构分析

文章目录 前言类的分析类的本质objc_class 、objc_object和NSObjectobjc_object:所有对象的基类型objc_class:类的底层结构NSObject:面向用户的根类 小结 指针内存偏移普通指针----值拷贝对象----指针拷贝或引用拷贝用数组指针引出----内存偏…

基于CangjieMagic的RAG技术赋能智能问答系统

目录 引言 示例程序分析 代码结构剖析 导入模块解读 智能体配置详情 提示词模板说明 主程序功能解析 异步聊天功能实现 检索信息展示 技术要点总结 ollama 本地部署nomic-embed-text 运行测试 结语 引言 这段时间一直在学习CangjieMagic。前几天完成了在CangjieMa…

算力租赁革命:弹性模式如何重构数字时代的创新门槛​

一、算力革命:第四次工业革命的核心驱动力​ 在科技飞速发展的当下,我们正悄然迎来第四次工业革命。华为创始人任正非在一场程序设计竞赛中曾深刻指出,这场革命的基础便是大算力。随着 5G、人工智能、大数据、物联网等信息技术的迅猛发展&am…

图论回溯

图论 200.岛屿数量DFS 给你一个由 ‘1’(陆地)和 ‘0’(水)组成的的二维网格,请你计算网格中岛屿的数量。岛屿总是被水包围,并且每座岛屿只能由水平方向和/或竖直方向上相邻的陆地连接形成。此外&#xff…

RFID测温芯片助力新能源产业安全与能效提升

在“双碳”目标驱动下,新能源产业正经历爆发式增长。无论是电动汽车、储能电站还是风光发电场,设备安全与能效提升始终是行业核心命题。而温度,这个看似普通的物理参数,却成为破解这一命题的关键密码。RFID测温芯片(集…

S32K3 工具篇9:如何在无源码情况下灵活调试elf文件

S32K3 工具篇9:如何在无源码情况下灵活调试elf文件 一,文档简介二, 功能实现2.1 代码工具准备2.2 elf修改功能实现:Fun2功能跳过2.2.1 PC越过Fun22.2.2 Fun2替换为nop 2.3 elf修改功能实现:Fun4替换Fun2入口2.3.1 link…

Nacos 配置文件总结

Nacos 配置文件总结 文章目录 Nacos 配置文件总结1 、在 Nacos 服务端添加配置文件1. 启动Nacos Server。2. 新建配置文件。3. 发布配置集后,我们便可以在配置列表中查看相应的配置文件。4. 配置nacos数据库5. 运行 Nacos 容器6. 验证安装结果7. 配置验证 2 、在 Na…

ASP.NET Web Forms框架识别

ASP.NET 支持三种不同的开发模式: Web Pages(Web 页面)、MVC(Model View Controller 模型-视图-控制器)、Web Forms(Web 窗体): Web Pages 单页面模式MVC 模型-视图-控制器Web Form…

哈工大计统大作业-程序人生

摘 要 本项目以“程序人生-Hellos P2P”为核心,通过编写、预处理、编译、汇编、链接及运行一个简单的Hello程序,系统探讨了计算机系统中程序从代码到进程的全生命周期。实验基于Ubuntu环境,使用GCC工具链完成代码转换,分析了预处…

设计模式——装饰器设计模式(结构型)

摘要 文中主要介绍了装饰器设计模式,它是一种结构型设计模式,可在不改变原有类代码的情况下,动态为对象添加额外功能。文中详细阐述了装饰器模式的角色、结构、实现方式、适合场景以及实战示例等内容,还探讨了其与其他设计模式的…

途景VR智拍APP:开启沉浸式VR拍摄体验

在数字化时代,VR技术以其沉浸式的体验逐渐走进了人们的日常生活。途景VR智拍APP作为一款集看图和拍照于一体的VR软件,为用户带来了全新的视觉体验和便捷的拍摄方式,无论是专业摄影师还是普通用户,都能轻松上手,拍出令人…

Linux环境搭建MCU开发环境

操作系统版本: ubuntu 22.04 文本编辑器: vscode 开发板: stm32f103c8t6 调试器: st-link 前言 步骤一: 安装交叉编译工具链 步骤二: 创建工程目录结构 步骤三: 调试…

【基础算法】高精度(加、减、乘、除)

文章目录 什么是高精度1. 高精度加法解题思路代码实现 2. 高精度减法解题思路代码实现 3. 高精度乘法解题思路代码实现 4. 高精度除法 (高精度 / 低精度)解题思路代码实现 什么是高精度 我们平时使用加减乘除的时候都是直接使用 - * / 这些符号,前提是进行运算的数…

Windows最快速打开各项系统设置大全

目录 一、应用背景 二、设置项打开方法 2.1 方法一界面查找(最慢) 2.2 方法二cmd命令(慢) 2.3 方法三快捷键(快) 2.4 方法四搜索栏(快) 2.5 方法五任务栏(最快&am…

嵌入式编译工具链熟悉与游戏移植

在自己的虚拟机Ubuntu系统下,逐步编译 mininim源码(波斯王子重制开源版) 指令流程 sudo apt-get remove liballegro5-dev liballegro-image5-dev \liballegro-audio5-dev liballegro-acodec5-dev liballegro-dialog5-dev sudo apt-get install automak…

DeepSeek-R1-0528,官方的端午节特别献礼

DeepSeek:端午安康!刻在国人骨子里的浪漫 2025 年 05 月 28 日 | DeepSeek 端午特别献礼 当粽叶飘香时,DeepSeek 悄然带来一份节日惊喜 版本号 DeepSeek-R1-0528 正式上线 官方赋予它的灵魂是: 思考更深 推理更强 用户通过官网…

001 flutter学习的注意事项及前期准备

在学习flutter之前,还需要进行一些初始的配置,然后才可以学习flutter 1.安装flutter 国内官网:https://flutter.cn​​​​​​ 国际官网:https://flutter.dev 安装完成后,按照官网上面的操作步骤进行配置&#xf…