实战二:开发网页端界面完成黑白视频转为彩色视频

news2025/6/8 20:09:21

​一、需求描述

设计一个简单的视频上色应用,用户可以通过网页界面上传黑白视频,系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观,不需要了解技术细节。

效果图

​二、实现思路

总体思路:

  1. 用户通过Gradio界面上传黑白视频
  2. 视频被传递给video_colorize函数
  3. 函数使用ModelScope平台提供的UNet模型进行视频上色
  4. 处理后的视频路径被返回给Gradio界面
  5. Gradio界面显示上色后的视频

2.1 导入依赖库

import gradio as gr
import os
import torch
import tempfile
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
  • gradio: 用于创建Web界面的库,可以快速构建机器学习模型的演示界面
  • os: Python标准库,用于处理文件和目录操作
  • torch: PyTorch深度学习框架
  • tempfile: Python标准库,用于处理临时文件和目录
  • modelscope: 阿里云开源的模型即服务框架,提供了大量预训练模型
    • OutputKeys: 定义了模型输出的标准键名
    • pipeline: 用于创建模型推理管道
    • Tasks: 定义了支持的任务类型

2.2 安全设置和临时目录配置

# 添加安全全局变量设置
torch.serialization.add_safe_globals([slice])
# 设置临时目录
temp_dir = "D:/condaLearning/temp"
os.makedirs(temp_dir, exist_ok=True)
tempfile.tempdir = temp_dir
  • torch.serialization.add_safe_globals: 添加安全的全局变量,用于模型加载
  • os.makedirs: 创建临时目录
    • exist_ok=True表示如果目录已存在则不报错
  • tempfile.tempdir: 设置临时文件的默认目录

2.3 视频上色video_colorize函数

def video_colorize(input_video):
    # 在临时目录中创建输出文件路径
    output_video_path = os.path.join(temp_dir, 'colored_video.mp4')
    # 创建视频上色管道
    colorizer = pipeline(Tasks.video_colorization, 
                        model='damo/cv_unet_video-colorization', 
                        device='cuda')
    # 进行视频上色
    result = colorizer(input_video)
    # 返回处理后的视频路径
    return result[OutputKeys.OUTPUT_VIDEO]
  • os.path.join:该函数用于将多个路径组合成为输出文件的路径output_video_path,该路径为D:/condaLearning/temp/colored_video.mp4
  • pipeline: 创建模型推理管道
    • Tasks.video_colorization: 指定任务类型为视频上色
    • model='damo/cv_unet_video-colorization': 使用ModelScope中的视频上色模型damo/cv_unet_video-colorization
    • device='cuda': 使用GPU进行推理
  • colorizer(input_video): 执行视频上色
  • result[OutputKeys.OUTPUT_VIDEO]: 获取处理后的视频路径

2.4 Gradio界面创建

# 创建Gradio界面
demo = gr.Interface(
    fn=video_colorize,
    inputs=gr.Video(label="上传黑白视频"),
    outputs=gr.Video(label="上色后的视频"),
)
  • gr.Interface: 调用Gradio的Interface类,来创建Gradio界面
    • fn=video_colorize: 指定处理函数为video_colorize
    • inputs=gr.Video: 使用视频上传组件,标签为"上传黑白视频"
    • outputs=gr.Video: 使用视频显示组件,标签为"上色后的视频"

2.5 启动应用

if __name__ == "__main__":
    demo.launch(share=False)
  • demo.launch: 启动Gradio服务器
    • share=False: 不创建公共链接,只在本地运行

三、完整代码

import gradio as gr
import os
import torch
import tempfile
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

# 添加安全全局变量设置
torch.serialization.add_safe_globals([slice])

# 设置临时目录
temp_dir = "D:/condaLearning/temp"
os.makedirs(temp_dir, exist_ok=True)
tempfile.tempdir = temp_dir

# 定义视频上色函数
def video_colorize(input_video):
    # 在临时目录中创建输出文件路径
    output_video_path = os.path.join(temp_dir, 'colored_video.mp4')
    # 创建视频上色管道
    colorizer = pipeline(Tasks.video_colorization, model='damo/cv_unet_video-colorization', device='cuda')
    # 进行视频上色
    result = colorizer(input_video)
    # 保存上色后的视频到临时目录
    # 直接返回结果中的视频路径,而不是尝试写入文件
    return result[OutputKeys.OUTPUT_VIDEO]

# 创建Gradio界面
demo = gr.Interface(
    fn=video_colorize,
    inputs=gr.Video(label="上传黑白视频"),
    outputs=gr.Video(label="上色后的视频"),
)

if __name__ == "__main__":
    demo.launch(share=False)

四、效果展示

运行成功后,生成URL:http://127.0.0.1:7860
在这里插入图片描述
浏览器打开生成的URL:http://127.0.0.1:7860
在这里插入图片描述
打开准备好的黑白视频 ​​在这里插入图片描述

处理后的视频
在这里插入图片描述

五、问题与解决

问题一:ModuleNotFoundError: No module named ‘xxx’(下图为示例)
在这里插入图片描述
解决一:pip install xxx

#过程中遇到需要安装的依赖包
pip install gradio
pip install modelscope
pip install addict
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install datasets==3.3.0
pip install simplejson
pip install sortedcontainers
pip install opencv-python
pip install ffmpeg

问题二:ImportError: cannot import name ‘get_metadata_patterns’ from ‘datasets.data_files’ 在这里插入图片描述

解决二:pip install datasets==3.3.0

问题三:PermissionError: [Errno 13] Permission denied: ‘D:\XXX\temp\gradio\09d4c3363b495e6c51b91b4c04a11b213ff48ceb3f09a20b7b46a238dfaf17ca\luomajiari.mp4’
在这里插入图片描述

解决三:按照报错信息,将路径下的mp4缓存的文件删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404515.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue生成二维码图片+文字说明

需求:点击下载图片,上方是二维码,下方显示该二维码的相关内容,并且居中显示,支持换行 解决方案步骤: 1. 使用qrcode生成二维码的DataURL。 2. 创建canvas,将二维码图片绘制到canvas的上半部分…

机器学习监督学习实战五:六种算法对声呐回波信号进行分类

本项目基于UCI的声呐目标识别数据集(Sonar, Mines vs. Rocks),通过10种机器学习算法比较,发现集成学习方法表现最优。研究首先对60个声呐能量特征进行可视化分析(分布直方图、相关性矩阵),对比了…

​React Hooks 的闭包陷阱问题

这是主包在面试中遇到的一道题目,面试官的问题是:"这个页面初次展示出来时Count和step的值是什么,我点击按钮count和step的值有什么变化?“ 这个题目主包回答的不好,所以想做一个总结。 题目 import React, { …

力扣面试150题--克隆图

Day 61 题目描述 思路 /* // Definition for a Node. class Node {public int val;public List<Node> neighbors;public Node() {val 0;neighbors new ArrayList<Node>();}public Node(int _val) {val _val;neighbors new ArrayList<Node>();}public N…

鸿蒙PC,有什么缺点?

点击上方关注 “终端研发部” 设为“星标”&#xff0c;和你一起掌握更多数据库知识 价格太高&#xff0c;二是部分管理员权限首先&#xff0c;三对于开发者不太友好举个例子&#xff1a;VSCode的兼容性对程序员至关重要。若能支持VSCode&#xff0c;这台电脑将成为大多数开发者…

PDF图片和表格等信息提取开源项目

文章目录 综合性工具专门的表格提取工具经典工具 综合性工具 PDF-Extract-Kit - opendatalab开发的综合工具包&#xff0c;包含布局检测、公式检测、公式识别和OCR功能 仓库&#xff1a;opendatalab/PDF-Extract-Kit特点&#xff1a;功能全面&#xff0c;包含表格内容提取的S…

《Progressive Transformers for End-to-End Sign Language Production》复现报告

摘要 本文复现了《Progressive Transformers for End-to-End Sign Language Production》一文中的核心模型结构。该论文提出了一种端到端的手语生成方法&#xff0c;能够将自然语言文本映射为连续的 3D 骨架序列&#xff0c;并引入 Counter Decoding 实现动态序列长度控制。我…

计算机视觉——相机标定

计算机视觉——相机标定 一、像素坐标系、图像坐标系、相机坐标系、世界坐标系二、坐标系变换图像坐标系 → 像素坐标系相机坐标系 → 图像坐标系世界坐标系 → 相机坐标系 ⋆ \star ⋆ 世界坐标系 → 像素坐标系 三、相机标定 一、像素坐标系、图像坐标系、相机坐标系、世界坐…

C语言中的数据类型(二)--结构体

在之前我们已经探讨了C语言中的自定义数据类型和数组&#xff0c;链接如下&#xff1a;C语言中的数据类型&#xff08;上&#xff09;_c语言数据类型-CSDN博客 目录 一、结构体的声明 二、结构体变量的定义和初始化 三、结构体成员的访问 3.1 结构体成员的直接访问 3.2 结…

C++11:原子操作与内存顺序:从理论到实践的无锁并发实现

文章目录 0.简介1.并发编程需要保证的特性2.原子操作2.1 原子操作的特性 3.内存顺序3.1 顺序一致性3.2 释放-获取&#xff08;Release-Acquire)3.3 宽松顺序&#xff08;Relaxed)3.4 内存顺序 4.无锁并发5. 使用建议 0.简介 在并发编程中&#xff0c;原子性、可见性和有序性是…

动力电池点焊机:驱动电池焊接高效与可靠的核心力量|比斯特自动化

在新能源汽车与储能设备需求激增的背景下&#xff0c;动力电池的制造工艺直接影响产品性能与安全性。作为电芯与极耳连接的核心设备&#xff0c;点焊机如何平衡效率、精度与可靠性&#xff0c;成为电池企业关注的重点。 动力电池点焊机的核心功能是确保电芯与极耳的稳固连接。…

【MySQL】10.事务管理

1. 事务的引入 首先我们需要知道CURD操作不加控制会产生什么问题&#xff1a; 为了解决上面的问题&#xff0c;CURD需要满足如下条件&#xff1a; 2. 事务的概念 事务就是一组DML语句组成&#xff0c;这些语句在逻辑上存在相关性&#xff0c;这一组DML语句要么全部成功&…

Bugku-CTF-Web安全最佳刷题路线

曾经的我也是CTF六项全能&#xff0c;Web安全&#xff0c;密码学&#xff0c;杂项&#xff0c;Pwn&#xff0c;逆向&#xff0c;安卓样样都会。明明感觉这样很酷&#xff0c;却为何还是沦为社畜。Bugku-CTF-Web安全最佳刷题路线&#xff0c;我已经整理好了&#xff0c;干就完了…

IT学习方法与资料分享

一、编程语言与核心技能&#xff1a;构建技术地基 1. 入门首选&#xff1a;Python 与 JavaScript Python&#xff1a;作为 AI 与数据科学的基石&#xff0c;可快速构建数据分析与自动化脚本开发能力。 JavaScript&#xff1a;Web 开发的核心语言&#xff0c;可系统掌握 React/V…

jenkins gerrit-trigger插件配置

插件gerrit-trigger下载好之后要在Manage Jenkins -->Gerrit Trigger-->New Server 中新增Gerrit Servers 配置好保存后点击“状态”查看是否正常

数论总结,(模版与题解)

数论 欧拉函数X质数&#xff08;线性筛与二进制枚举&#xff09;求解组合数欧拉降幂&#xff08;乘积幂次&#xff09;乘法逆元最小质因子之和模版 欧拉函数 欧拉函数的定义就是小于等于n的数里有f(n)个数与n互质&#xff0c;下面是求欧拉函数的模版。 package com.js.datas…

EasyRTC嵌入式音视频通信SDK助力物联网/视频物联网音视频打造全场景应用

一、方案概述​ 随着物联网技术的飞速发展&#xff0c;视频物联网在各行业的应用日益广泛。实时音视频通信技术作为视频物联网的核心支撑&#xff0c;其性能直接影响着系统的交互体验和信息传递效率。EasyRTC作为一款成熟的音视频框架&#xff0c;具备低延迟、高画质、跨平台等…

1-2 Linux-虚拟机(2025.6.7学习篇- win版本)

1、虚拟机 学习Linux系统&#xff0c;就需要有一个可用的Linux系统。 如何获得&#xff1f;将自己的电脑重装系统为Linux&#xff1f; NoNo。这不现实&#xff0c;因为Linux系统并不适合日常办公使用。 我们需要借助虚拟机来获得可用的Linux系统环境进行学习。 借助虚拟化技术&…

Deepseek基座:Deepseek-v2核心内容解析

DeepSeek原创文章1 DeepSeek-v3&#xff1a;基于MLA的高效kv缓存压缩与位置编码优化技术 2 Deepseek基座&#xff1a;DeepSeek LLM核心内容解析 3 Deepseek基座&#xff1a;Deepseek MOE核心内容解析 4 Deepseek基座&#xff1a;Deepseek-v2核心内容解析 5Deepseek基座&#xf…

2025主流智能体Agent终极指南:Manus、OpenManus、MetaGPT、AutoGPT与CrewAI深度横评

当你的手机助手突然提醒"明天会议要带投影仪转接头"&#xff0c;或是电商客服自动生成售后方案时&#xff0c;背后都是**智能体(Agent)**在悄悄打工。这个AI界的"瑞士军刀"具备三大核心特征&#xff1a; 自主决策能力&#xff1a;像老司机一样根据路况实时…