实战三:开发网页端界面完成黑白视频转为彩色视频

news2025/7/30 13:12:59

​一、需求描述

设计一个简单的视频上色应用,用户可以通过网页界面上传黑白视频,系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观,不需要了解技术细节。

效果图

​二、实现思路

总体思路:

  1. 用户通过Gradio界面上传黑白视频
  2. 视频被传递给video_colorize函数
  3. 函数使用ModelScope平台提供的UNet模型进行视频上色
  4. 处理后的视频路径被返回给Gradio界面
  5. Gradio界面显示上色后的视频

2.1 导入依赖库

import gradio as gr
import os
import torch
import tempfile
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
  • gradio: 用于创建Web界面的库,可以快速构建机器学习模型的演示界面
  • os: Python标准库,用于处理文件和目录操作
  • torch: PyTorch深度学习框架
  • tempfile: Python标准库,用于处理临时文件和目录
  • modelscope: 阿里云开源的模型即服务框架,提供了大量预训练模型
    • OutputKeys: 定义了模型输出的标准键名
    • pipeline: 用于创建模型推理管道
    • Tasks: 定义了支持的任务类型

2.2 安全设置和临时目录配置

# 添加安全全局变量设置
torch.serialization.add_safe_globals([slice])
# 设置临时目录
temp_dir = "D:/condaLearning/temp"
os.makedirs(temp_dir, exist_ok=True)
tempfile.tempdir = temp_dir
  • torch.serialization.add_safe_globals: 添加安全的全局变量,用于模型加载
  • os.makedirs: 创建临时目录
    • exist_ok=True表示如果目录已存在则不报错
  • tempfile.tempdir: 设置临时文件的默认目录

2.3 视频上色video_colorize函数

def video_colorize(input_video):
    # 在临时目录中创建输出文件路径
    output_video_path = os.path.join(temp_dir, 'colored_video.mp4')
    # 创建视频上色管道
    colorizer = pipeline(Tasks.video_colorization, 
                        model='damo/cv_unet_video-colorization', 
                        device='cuda')
    # 进行视频上色
    result = colorizer(input_video)
    # 返回处理后的视频路径
    return result[OutputKeys.OUTPUT_VIDEO]
  • os.path.join:该函数用于将多个路径组合成为输出文件的路径output_video_path,该路径为D:/condaLearning/temp/colored_video.mp4
  • pipeline: 创建模型推理管道
    • Tasks.video_colorization: 指定任务类型为视频上色
    • model='damo/cv_unet_video-colorization': 使用ModelScope中的视频上色模型damo/cv_unet_video-colorization
    • device='cuda': 使用GPU进行推理
  • colorizer(input_video): 执行视频上色
  • result[OutputKeys.OUTPUT_VIDEO]: 获取处理后的视频路径

2.4 Gradio界面创建

# 创建Gradio界面
demo = gr.Interface(
    fn=video_colorize,
    inputs=gr.Video(label="上传黑白视频"),
    outputs=gr.Video(label="上色后的视频"),
)
  • gr.Interface: 调用Gradio的Interface类,来创建Gradio界面
    • fn=video_colorize: 指定处理函数为video_colorize
    • inputs=gr.Video: 使用视频上传组件,标签为"上传黑白视频"
    • outputs=gr.Video: 使用视频显示组件,标签为"上色后的视频"

2.5 启动应用

if __name__ == "__main__":
    demo.launch(share=False)
  • demo.launch: 启动Gradio服务器
    • share=False: 不创建公共链接,只在本地运行

三、完整代码

import gradio as gr
import os
import torch
import tempfile
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

# 添加安全全局变量设置
torch.serialization.add_safe_globals([slice])

# 设置临时目录
temp_dir = "D:/condaLearning/temp"
os.makedirs(temp_dir, exist_ok=True)
tempfile.tempdir = temp_dir

# 定义视频上色函数
def video_colorize(input_video):
    # 在临时目录中创建输出文件路径
    output_video_path = os.path.join(temp_dir, 'colored_video.mp4')
    # 创建视频上色管道
    colorizer = pipeline(Tasks.video_colorization, model='damo/cv_unet_video-colorization', device='cuda')
    # 进行视频上色
    result = colorizer(input_video)
    # 保存上色后的视频到临时目录
    # 直接返回结果中的视频路径,而不是尝试写入文件
    return result[OutputKeys.OUTPUT_VIDEO]

# 创建Gradio界面
demo = gr.Interface(
    fn=video_colorize,
    inputs=gr.Video(label="上传黑白视频"),
    outputs=gr.Video(label="上色后的视频"),
)

if __name__ == "__main__":
    demo.launch(share=False)

四、效果展示

运行成功后,生成URL:http://127.0.0.1:7860
在这里插入图片描述
浏览器打开生成的URL:http://127.0.0.1:7860
在这里插入图片描述
打开准备好的黑白视频 ​​在这里插入图片描述

处理后的视频
在这里插入图片描述

五、问题与解决

问题一:ModuleNotFoundError: No module named ‘xxx’(下图为示例)
在这里插入图片描述
解决一:pip install xxx

#过程中遇到需要安装的依赖包
pip install gradio
pip install modelscope
pip install addict
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install datasets==3.3.0
pip install simplejson
pip install sortedcontainers
pip install opencv-python
pip install ffmpeg

问题二:ImportError: cannot import name ‘get_metadata_patterns’ from ‘datasets.data_files’ 在这里插入图片描述

解决二:pip install datasets==3.3.0

问题三:PermissionError: [Errno 13] Permission denied: ‘D:\XXX\temp\gradio\09d4c3363b495e6c51b91b4c04a11b213ff48ceb3f09a20b7b46a238dfaf17ca\luomajiari.mp4’
在这里插入图片描述

解决三:按照报错信息,将路径下的mp4缓存的文件删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2407020.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

系统掌握PyTorch:图解张量、Autograd、DataLoader、nn.Module与实战模型

本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在聚客AI学院。 本文通过代码驱动的方式,系统讲解PyTorch核心概念和实战技巧,涵盖张量操作、自动微分、数据加载、模型构建和训练全流程&#…

nnUNet V2修改网络——暴力替换网络为UNet++

更换前,要用nnUNet V2跑通所用数据集,证明nnUNet V2、数据集、运行环境等没有问题 阅读nnU-Net V2 的 U-Net结构,初步了解要修改的网络,知己知彼,修改起来才能游刃有余。 U-Net存在两个局限,一是网络的最佳深度因应用场景而异,这取决于任务的难度和可用于训练的标注数…

论文阅读:LLM4Drive: A Survey of Large Language Models for Autonomous Driving

地址:LLM4Drive: A Survey of Large Language Models for Autonomous Driving 摘要翻译 自动驾驶技术作为推动交通和城市出行变革的催化剂,正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。…

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement 1. LAB环境2. L2公告策略2.1 部署Death Star2.2 访问服务2.3 部署L2公告策略2.4 服务宣告 3. 可视化 ARP 流量3.1 部署新服务3.2 准备可视化3.3 再次请求 4. 自动IPAM4.1 IPAM Pool4.2 …

数学建模-滑翔伞伞翼面积的设计,运动状态计算和优化 !

我们考虑滑翔伞的伞翼面积设计问题以及运动状态描述。滑翔伞的性能主要取决于伞翼面积、气动特性以及飞行员的重量。我们的目标是建立数学模型来描述滑翔伞的运动状态,并优化伞翼面积的设计。 一、问题分析 滑翔伞在飞行过程中受到重力、升力和阻力的作用。升力和阻力与伞翼面…

tauri项目,如何在rust端读取电脑环境变量

如果想在前端通过调用来获取环境变量的值&#xff0c;可以通过标准的依赖&#xff1a; std::env::var(name).ok() 想在前端通过调用来获取&#xff0c;可以写一个command函数&#xff1a; #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…

MyBatis中关于缓存的理解

MyBatis缓存 MyBatis系统当中默认定义两级缓存&#xff1a;一级缓存、二级缓存 默认情况下&#xff0c;只有一级缓存开启&#xff08;sqlSession级别的缓存&#xff09;二级缓存需要手动开启配置&#xff0c;需要局域namespace级别的缓存 一级缓存&#xff08;本地缓存&#…

【Linux手册】探秘系统世界:从用户交互到硬件底层的全链路工作之旅

目录 前言 操作系统与驱动程序 是什么&#xff0c;为什么 怎么做 system call 用户操作接口 总结 前言 日常生活中&#xff0c;我们在使用电子设备时&#xff0c;我们所输入执行的每一条指令最终大多都会作用到硬件上&#xff0c;比如下载一款软件最终会下载到硬盘上&am…

通过MicroSip配置自己的freeswitch服务器进行调试记录

之前用docker安装的freeswitch的&#xff0c;启动是正常的&#xff0c; 但用下面的Microsip连接不上 主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …

【C++】纯虚函数类外可以写实现吗?

1. 答案 先说答案&#xff0c;可以。 2.代码测试 .h头文件 #include <iostream> #include <string>// 抽象基类 class AbstractBase { public:AbstractBase() default;virtual ~AbstractBase() default; // 默认析构函数public:virtual int PureVirtualFunct…

springboot 日志类切面,接口成功记录日志,失败不记录

springboot 日志类切面&#xff0c;接口成功记录日志&#xff0c;失败不记录 自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…

Linux部署私有文件管理系统MinIO

最近需要用到一个文件管理服务&#xff0c;但是又不想花钱&#xff0c;所以就想着自己搭建一个&#xff0c;刚好我们用的一个开源框架已经集成了MinIO&#xff0c;所以就选了这个 我这边对文件服务性能要求不是太高&#xff0c;单机版就可以 安装非常简单&#xff0c;几个命令就…

Ubuntu系统复制(U盘-电脑硬盘)

所需环境 电脑自带硬盘&#xff1a;1块 (1T) U盘1&#xff1a;Ubuntu系统引导盘&#xff08;用于“U盘2”复制到“电脑自带硬盘”&#xff09; U盘2&#xff1a;Ubuntu系统盘&#xff08;1T&#xff0c;用于被复制&#xff09; &#xff01;&#xff01;&#xff01;建议“电脑…

认识CMake并使用CMake构建自己的第一个项目

1.CMake的作用和优势 跨平台支持&#xff1a;CMake支持多种操作系统和编译器&#xff0c;使用同一份构建配置可以在不同的环境中使用 简化配置&#xff1a;通过CMakeLists.txt文件&#xff0c;用户可以定义项目结构、依赖项、编译选项等&#xff0c;无需手动编写复杂的构建脚本…

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

前言 如上一篇文章《dexcap升级版之DexWild》中的前言部分所说&#xff0c;在叠衣服的过程中&#xff0c;我会带着团队对比各种模型、方法、策略&#xff0c;毕竟针对各个场景始终寻找更优的解决方案&#xff0c;是我个人和我司「七月在线」的职责之一 且个人认为&#xff0c…

协议转换利器,profinet转ethercat网关的两大派系,各有千秋

随着工业以太网的发展&#xff0c;其高效、便捷、协议开放、易于冗余等诸多优点&#xff0c;被越来越多的工业现场所采用。西门子SIMATIC S7-1200/1500系列PLC集成有Profinet接口&#xff0c;具有实时性、开放性&#xff0c;使用TCP/IP和IT标准&#xff0c;符合基于工业以太网的…

9-Oracle 23 ai Vector Search 特性 知识准备

很多小伙伴是不是参加了 免费认证课程&#xff08;限时至2025/5/15&#xff09; Oracle AI Vector Search 1Z0-184-25考试&#xff0c;都顺利拿到certified了没。 各行各业的AI 大模型的到来&#xff0c;传统的数据库中的SQL还能不能打&#xff0c;结构化和非结构的话数据如何和…

mac:大模型系列测试

0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何&#xff0c;是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试&#xff0c;是可以跑通文章里面的代码。训练速度也是很快的。 注意…

DBLP数据库是什么?

DBLP&#xff08;Digital Bibliography & Library Project&#xff09;Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高&#xff0c;数据库文献更新速度很快&#xff0c;很好地反映了国际计算机科学学术研…

Xela矩阵三轴触觉传感器的工作原理解析与应用场景

Xela矩阵三轴触觉传感器通过先进技术模拟人类触觉感知&#xff0c;帮助设备实现精确的力测量与位移监测。其核心功能基于磁性三维力测量与空间位移测量&#xff0c;能够捕捉多维触觉信息。该传感器的设计不仅提升了触觉感知的精度&#xff0c;还为机器人、医疗设备和制造业的智…