计算机设计大赛 深度学习图像风格迁移

news2025/5/10 5:45:10

文章目录

  • 0 前言
  • 1 VGG网络
  • 2 风格迁移
  • 3 内容损失
  • 4 风格损失
  • 5 主代码实现
  • 6 迁移模型实现
  • 7 效果展示
  • 8 最后

0 前言

🔥 优质竞赛项目系列,今天要分享的是

🚩 深度学习图像风格迁移 - opencv python

该项目较为新颖,适合作为竞赛课题方向,学长非常推荐!

🥇学长这里给一个题目综合评分(每项满分5分)

  • 难度系数:3分
  • 工作量:3分
  • 创新点:4分

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

图片风格迁移指的是将一个图片的风格转换到另一个图片中,如图所示:

在这里插入图片描述
原图片经过一系列的特征变换,具有了新的纹理特征,这就叫做风格迁移。

1 VGG网络

在实现风格迁移之前,需要先简单了解一下VGG网络(由于VGG网络不断使用卷积提取特征的网络结构和准确的图像识别效率,在这里我们使用VGG网络来进行图像的风格迁移)。

在这里插入图片描述
如上图所示,从A-
E的每一列都表示了VGG网络的结构原理,其分别为:VGG-11,VGG-13,VGG-16,VGG-19,如下图,一副图片经过VGG-19网络结构可以最后得到一个分类结构。

在这里插入图片描述

2 风格迁移

对一副图像进行风格迁移,需要清楚的有两点。

  • 生成的图像需要具有原图片的内容特征
  • 生成的图像需要具有风格图片的纹理特征

根据这两点,可以确定,要想实现风格迁移,需要有两个loss值:
一个是生成图片的内容特征与原图的内容特征的loss,另一个是生成图片的纹理特征与风格图片的纹理特征的loss。

而对一张图片进行不同的特征(内容特征和纹理特征)提取,只需要使用不同的卷积结构进行训练即可以得到。这时我们需要用到两个神经网络。

再回到VGG网络上,VGG网络不断使用卷积层来提取特征,利用特征将物品进行分类,所以该网络中提取内容和纹理特征的参数都可以进行迁移使用。故需要将生成的图片经过VGG网络的特征提取,再分别针对内容和纹理进行特征的loss计算。

在这里插入图片描述
如图,假设初始化图像x(Input image)是一张随机图片,我们经过fw(image Transform Net)网络进行生成,生成图片y。
此时y需要和风格图片ys进行特征的计算得到一个loss_style,与内容图片yc进行特征的计算得到一个loss_content,假设loss=loss_style+loss_content,便可以对fw的网络参数进行训练。

现在就可以看网上很常见的一张图片了:

在这里插入图片描述
相较于我画的第一张图,这即对VGG内的loss求值过程进行了细化。

细化的结果可以分为两个方面:

  • (1)内容损失
  • (2)风格损失

3 内容损失

由于上图中使用的模型是VGG-16,那么即相当于在VGG-16的relu3-3处,对两张图片求得的特征进行计算求损失,计算的函数如下:

在这里插入图片描述

简言之,假设yc求得的特征矩阵是φ(y),生成图片求得的特征矩阵为φ(y^),且c=φ.channel,w=φ.weight,h=φ.height,则有:

在这里插入图片描述

代码实现:

def content_loss(content_img, rand_img):
    content_layers = [('relu3_3', 1.0)]
    content_loss = 0.0
    # 逐个取出衡量内容损失的vgg层名称及对应权重
    for layer_name, weight in content_layers:

        # 计算特征矩阵
        p = get_vgg(content_img, layer_name)
        x = get_vgg(rand_img, layer_name)
        # 长x宽xchannel
        M = p.shape[1] * p.shape[2] * p.shape[3]

        # 根据公式计算损失,并进行累加
        content_loss += (1.0 / M) * tf.reduce_sum(tf.pow(p - x, 2)) * weight

    # 将损失对层数取平均
    content_loss /= len(content_layers)
    return content_loss

4 风格损失

风格损失由多个特征一同计算,首先需要计算Gram Matrix

在这里插入图片描述
Gram Matrix实际上可看做是feature之间的偏心协方差矩阵(即没有减去均值的协方差矩阵),在feature
map中,每一个数字都来自于一个特定滤波器在特定位置的卷积,因此每个数字就代表一个特征的强度,而Gram计算的实际上是两两特征之间的相关性,哪两个特征是同时出现的,哪两个是此消彼长的等等,同时,Gram的对角线元素,还体现了每个特征在图像中出现的量,因此,Gram有助于把握整个图像的大体风格。有了表示风格的Gram
Matrix,要度量两个图像风格的差异,只需比较他们Gram Matrix的差异即可。 故在计算损失的时候函数如下:

在这里插入图片描述
在实际使用时,该loss的层级一般选择由低到高的多个层,比如VGG16中的第2、4、7、10个卷积层,然后将每一层的style loss相加。

在这里插入图片描述
第三个部分不是必须的,被称为Total Variation
Loss。实际上是一个平滑项(一个正则化项),目的是使生成的图像在局部上尽可能平滑,而它的定义和马尔科夫随机场(MRF)中使用的平滑项非常相似。
其中yn+1是yn的相邻像素。

代码实现以上函数:

# 求gamm矩阵
def gram(x, size, deep):
    x = tf.reshape(x, (size, deep))
    g = tf.matmul(tf.transpose(x), x)
    return g

def style_loss(style_img, rand_img):
    style_layers = [('relu1_2', 0.25), ('relu2_2', 0.25), ('relu3_3', 0.25), ('reluv4_3', 0.25)]
    style_loss = 0.0
    # 逐个取出衡量风格损失的vgg层名称及对应权重
    for layer_name, weight in style_layers:

        # 计算特征矩阵
        a = get_vgg(style_img, layer_name)
        x = get_vgg(rand_img, layer_name)

        # 长x宽
        M = a.shape[1] * a.shape[2]
        N = a.shape[3]

        # 计算gram矩阵
        A = gram(a, M, N)
        G = gram(x, M, N)

        # 根据公式计算损失,并进行累加
        style_loss += (1.0 / (4 * M * M * N * N)) * tf.reduce_sum(tf.pow(G - A, 2)) * weight
    # 将损失对层数取平均
    style_loss /= len(style_layers)
    return style_loss

5 主代码实现

代码实现主要分为4步:

  • 1、随机生成图片

  • 2、读取内容和风格图片

  • 3、计算总的loss

  • 4、训练修改生成图片的参数,使得loss最小

      * def main():
            # 生成图片
            rand_img = tf.Variable(random_img(WIGHT, HEIGHT), dtype=tf.float32)
            with tf.Session() as sess:
    
                content_img = cv2.imread('content.jpg')
                style_img = cv2.imread('style.jpg')
            
                # 计算loss值
                cost = ALPHA * content_loss(content_img, rand_img) + BETA * style_loss(style_img, rand_img)
                optimizer = tf.train.AdamOptimizer(LEARNING_RATE).minimize(cost)
            
                sess.run(tf.global_variables_initializer())
                
                for step in range(TRAIN_STEPS):
                    # 训练
                    sess.run([optimizer,  rand_img])
            
                    if step % 50 == 0:
                        img = sess.run(rand_img)
                        img = np.clip(img, 0, 255).astype(np.uint8)
                        name = OUTPUT_IMAGE + "//" + str(step) + ".jpg"
                        cv2.imwrite(name, img)
    
    
    

    6 迁移模型实现

由于在进行loss值求解时,需要在多个网络层求得特征值,并根据特征值进行带权求和,所以需要根据已有的VGG网络,取其参数,重新建立VGG网络。
注意:在这里使用到的是VGG-19网络:

在重建的之前,首先应该下载Google已经训练好的VGG-19网络,以便提取出已经训练好的参数,在重建的VGG-19网络中重新利用。

在这里插入图片描述
下载得到.mat文件以后,便可以进行网络重建了。已知VGG-19网络的网络结构如上述图1中的E网络,则可以根据E网络的结构对网络重建,VGG-19网络:

在这里插入图片描述
进行重建即根据VGG-19模型的结构重新创建一个结构相同的神经网络,提取出已经训练好的参数作为新的网络的参数,设置为不可改变的常量即可。

def vgg19():
    layers=(
        'conv1_1','relu1_1','conv1_2','relu1_2','pool1',
        'conv2_1','relu2_1','conv2_2','relu2_2','pool2',
        'conv3_1','relu3_1','conv3_2','relu3_2','conv3_3','relu3_3','conv3_4','relu3_4','pool3',
        'conv4_1','relu4_1','conv4_2','relu4_2','conv4_3','relu4_3','conv4_4','relu4_4','pool4',
        'conv5_1','relu5_1','conv5_2','relu5_2','conv5_3','relu5_3','conv5_4','relu5_4','pool5'
    )
    vgg = scipy.io.loadmat('D://python//imagenet-vgg-verydeep-19.mat')
    weights = vgg['layers'][0]

    network={}
    net = tf.Variable(np.zeros([1, 300, 450, 3]), dtype=tf.float32)
    network['input'] = net
    for i,name in enumerate(layers):
        layer_type=name[:4]
        if layer_type=='conv':
            kernels = weights[i][0][0][0][0][0]
            bias = weights[i][0][0][0][0][1]
            conv=tf.nn.conv2d(net,tf.constant(kernels),strides=(1,1,1,1),padding='SAME',name=name)
            net=tf.nn.relu(conv + bias)
        elif layer_type=='pool':
            net=tf.nn.max_pool(net,ksize=(1,2,2,1),strides=(1,2,2,1),padding='SAME')
        network[name]=net
    return network

由于计算风格特征和内容特征时数据都不会改变,所以为了节省训练时间,在训练之前先计算出特征结果(该函数封装在以下代码get_neck()函数中)。

总的代码如下:



    import tensorflow as tf
    import numpy as np
    import scipy.io
    import cv2
    import scipy.misc
    
    HEIGHT = 300
    WIGHT = 450
    LEARNING_RATE = 1.0
    NOISE = 0.5
    ALPHA = 1
    BETA = 500
    
    TRAIN_STEPS = 200
    
    OUTPUT_IMAGE = "D://python//img"
    STYLE_LAUERS = [('conv1_1', 0.2), ('conv2_1', 0.2), ('conv3_1', 0.2), ('conv4_1', 0.2), ('conv5_1', 0.2)]
    CONTENT_LAYERS = [('conv4_2', 0.5), ('conv5_2',0.5)]


    def vgg19():
        layers=(
            'conv1_1','relu1_1','conv1_2','relu1_2','pool1',
            'conv2_1','relu2_1','conv2_2','relu2_2','pool2',
            'conv3_1','relu3_1','conv3_2','relu3_2','conv3_3','relu3_3','conv3_4','relu3_4','pool3',
            'conv4_1','relu4_1','conv4_2','relu4_2','conv4_3','relu4_3','conv4_4','relu4_4','pool4',
            'conv5_1','relu5_1','conv5_2','relu5_2','conv5_3','relu5_3','conv5_4','relu5_4','pool5'
        )
        vgg = scipy.io.loadmat('D://python//imagenet-vgg-verydeep-19.mat')
        weights = vgg['layers'][0]
    
        network={}
        net = tf.Variable(np.zeros([1, 300, 450, 3]), dtype=tf.float32)
        network['input'] = net
        for i,name in enumerate(layers):
            layer_type=name[:4]
            if layer_type=='conv':
                kernels = weights[i][0][0][0][0][0]
                bias = weights[i][0][0][0][0][1]
                conv=tf.nn.conv2d(net,tf.constant(kernels),strides=(1,1,1,1),padding='SAME',name=name)
                net=tf.nn.relu(conv + bias)
            elif layer_type=='pool':
                net=tf.nn.max_pool(net,ksize=(1,2,2,1),strides=(1,2,2,1),padding='SAME')
            network[name]=net
        return network


    # 求gamm矩阵
    def gram(x, size, deep):
        x = tf.reshape(x, (size, deep))
        g = tf.matmul(tf.transpose(x), x)
        return g


    def style_loss(sess, style_neck, model):
        style_loss = 0.0
        for layer_name, weight in STYLE_LAUERS:
            # 计算特征矩阵
            a = style_neck[layer_name]
            x = model[layer_name]
            # 长x宽
            M = a.shape[1] * a.shape[2]
            N = a.shape[3]
    
            # 计算gram矩阵
            A = gram(a, M, N)
            G = gram(x, M, N)
    
            # 根据公式计算损失,并进行累加
            style_loss += (1.0 / (4 * M * M * N * N)) * tf.reduce_sum(tf.pow(G - A, 2)) * weight
            # 将损失对层数取平均
        style_loss /= len(STYLE_LAUERS)
        return style_loss


    def content_loss(sess, content_neck, model):
        content_loss = 0.0
        # 逐个取出衡量内容损失的vgg层名称及对应权重
    
        for layer_name, weight in CONTENT_LAYERS:
            # 计算特征矩阵
            p = content_neck[layer_name]
            x = model[layer_name]
            # 长x宽xchannel
    
            M = p.shape[1] * p.shape[2]
            N = p.shape[3]
    
            lss = 1.0 / (M * N)
            content_loss += lss * tf.reduce_sum(tf.pow(p - x, 2)) * weight
            # 根据公式计算损失,并进行累加
    
        # 将损失对层数取平均
        content_loss /= len(CONTENT_LAYERS)
        return content_loss


    def random_img(height, weight, content_img):
        noise_image = np.random.uniform(-20, 20, [1, height, weight, 3])
        random_img = noise_image * NOISE + content_img * (1 - NOISE)
        return random_img

   

    def get_neck(sess, model, content_img, style_img):
        sess.run(tf.assign(model['input'], content_img))
        content_neck = {}
        for layer_name, weight in CONTENT_LAYERS:
            # 计算特征矩阵
            p = sess.run(model[layer_name])
            content_neck[layer_name] = p
        sess.run(tf.assign(model['input'], style_img))
        style_content = {}
        for layer_name, weight in STYLE_LAUERS:
            # 计算特征矩阵
            a = sess.run(model[layer_name])
            style_content[layer_name] = a
        return content_neck, style_content


    def main():
        model = vgg19()
        content_img = cv2.imread('D://a//content1.jpg')
        content_img = cv2.resize(content_img, (450, 300))
        content_img = np.reshape(content_img, (1, 300, 450, 3)) - [128.0, 128.2, 128.0]
        style_img = cv2.imread('D://a//style1.jpg')
        style_img = cv2.resize(style_img, (450, 300))
        style_img = np.reshape(style_img, (1, 300, 450, 3)) - [128.0, 128.2, 128.0]
    
        # 生成图片
        rand_img = random_img(HEIGHT, WIGHT, content_img)
    
        with tf.Session() as sess:
            # 计算loss值
            content_neck, style_neck = get_neck(sess, model, content_img, style_img)
            cost = ALPHA * content_loss(sess, content_neck, model) + BETA * style_loss(sess, style_neck, model)
            optimizer = tf.train.AdamOptimizer(LEARNING_RATE).minimize(cost)
    
            sess.run(tf.global_variables_initializer())
            sess.run(tf.assign(model['input'], rand_img))
            for step in range(TRAIN_STEPS):
                print(step)
                # 训练
                sess.run(optimizer)
    
                if step % 10 == 0:
                    img = sess.run(model['input'])
                    img += [128, 128, 128]
                    img = np.clip(img, 0, 255).astype(np.uint8)
                    name = OUTPUT_IMAGE + "//" + str(step) + ".jpg"
                    img = img[0]
                    cv2.imwrite(name, img)
    
            img = sess.run(model['input'])
            img += [128, 128, 128]
            img = np.clip(img, 0, 255).astype(np.uint8)
            cv2.imwrite("D://end.jpg", img[0])
    
    main()



7 效果展示

在这里插入图片描述

8 最后

🧿 更多资料, 项目分享:

https://gitee.com/dancheng-senior/postgraduate

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1470764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Redis】安装与部署-Ubuntu

在Ubuntu上部署redis 安装环境:ubuntu 20.04 1.安装Redis: 在终端中运行以下命令来安装Redis: linuxubuntu:/mnt/hgfs/GB28181$ sudo apt install redis-server2.配置Redis: Redis的默认配置文件位于/etc/redis/redis.conf 一…

vue3新特性-defineOptions和defineModel

defineOptions 背景说明&#xff1a; 有 <script setup> 之前&#xff0c;如果要定义 props, emits 可以轻而易举地添加一个与 setup 平级的属性。 但是用了 <script setup> 后&#xff0c;就没法这么干了 setup 属性已经没有了&#xff0c;自然无法添加与其平…

基础复习(IDA调试器)

1.选择IDA调试后端 在顶部有一个下拉菜单&#xff0c;选择调试器后端位置 很多用户实际上使用的是Windows版本的IDA&#xff0c;该IDA可以直接调试Windows下32bit和64bit的程序 2.本地调试启动方法 载入IDA后&#xff0c;程序实际上在对程序内置的一个字符串进行base64解码…

Go编译到linux运行出现 cannot execute binary file

1.初学Go就在windows上写了个"Hello,World!",在windown上编译了一下&#xff0c;生成了可执行文件。运行无问题 go build text.go .\text.exe Hello,World!2.但是按照网上的教程进行生成linux的可执行文件时出现报错 set CGO_ENABLED0 set GOOSlinux set GOARCHam…

Ubuntu22.04.3LTS安装ffmpeg6.x

1.官网ffmpeg下载源码 https://ffmpeg.org/download.html#build-windows 安装 libx264 开发库&#xff08;一个开源的视频压缩库&#xff0c;用于编码视频流为 H.264/MPEG-4 AVC 视频格式&#xff09;。这是编译 FFmpeg 时如果要支持 H.264 编码必须的。 sudo apt install l…

低功耗设计——门控时钟

1. 前言 芯片功耗组成中&#xff0c;有高达40%甚至更多是由时钟树消耗掉的。这个结果的原因也很直观&#xff0c;因为这些时钟树在系统中具有最高的切换频率&#xff0c;而且有很多时钟buffer&#xff0c;而且为了最小化时钟延时&#xff0c;它们通常具有很高的驱动强度。此外&…

【前端】nginx 反向代理,实现跨域问题

前面讲跨域的问题&#xff0c;这篇 C# webapi 文章里面已经说过了。在上述文章中是属于从服务器端去允许访问的策略去解决跨域问题。而这里是从客户端的角度利用反向代理的方法去解决跨域问题。 反向代理&#xff1a;其原理就是将请求都接收到一个中间件&#xff08;中间地址&a…

时序预测 | Matlab实现基于GRNN广义回归神经网络的光伏功率预测模型

文章目录 效果一览文章概述源码设计参考资料效果一览 文章概述 1.时序预测 | Matlab实现基于GRNN广义回归神经网络的光伏功率预测模型 2.单变量时间序列预测; 3.多指标评价,评价指标包括:R2、MAE、MBE等,代码质量极高; 4.excel数据,方便替换,运行环境2020及以上。 广义回…

Nest.js权限管理系统开发(四)Swagger API接入

什么是swagger Swagger 是一个规范和完整的框架&#xff0c;用于生成、描述、调用和可视化 RESTful 风格的 Web 服务(<https://swagger.io/>)。 它的主要作用是&#xff1a; 1. 使得前后端分离开发更加方便&#xff0c;有利于团队协作 2. 接口的文档在线自动生成&#xf…

如何解决Nginx启动出现闪退问题?

哈喽&#xff0c;大家好&#xff0c;我是小浪。那么大家首次在启动nginx的时候&#xff0c;绝大部分同学会出现以下情况&#xff0c;就是我们双击nginx.exe文件之后&#xff0c;屏幕闪退一下就没了&#xff0c;然后我们访问localhost:8080提示404. 那么出现这种情况其实是我们…

JAVA的日志技术【详解】

1.使用日志技术的好处 可以将系统执行的信息&#xff0c;方便的记录到指定的位置&#xff08;控制台、文件中、数据库中&#xff09;。 可以随时以开关的形式控制日志的启停&#xff0c;无需侵入到源代码中去进行修改。 2.日志技术的体系结构 3.Logback日志框架 logback-co…

Spring定时任务--手动执行定时任务(替代@Scheduled)

原文网址&#xff1a;Spring定时任务--手动执行定时任务&#xff08;替代Scheduled&#xff09; 简介 本文介绍SpringBoot如何手动执行定时任务。 之前此文已经介绍过&#xff0c;直接用Scheduled即可使用Spring的定时任务&#xff0c;但有时需要手动去提交定时任务&#xf…

phtread_cancel函数用于取消线程,但不是实时的

如上图所示&#xff0c;线程函数中没有取消点&#xff08;一般是一些系统调用----man 7 pthreads查看&#xff0c;自定义函数是无效的&#xff09;&#xff0c;则使用pthread_cancle函数不生效。 解决方法&#xff1a;可以添加pthread_testcancle(); 通过pthread_join回收的…

【QT+QGIS跨平台编译】之五十一:【QGIS_CORE跨平台编译】—【qgsexpressionparser.cpp生成】

文章目录 一、Bison二、生成来源三、构建过程一、Bison GNU Bison 是一个通用的解析器生成器,它可以将注释的无上下文语法转换为使用 LALR (1) 解析表的确定性 LR 或广义 LR (GLR) 解析器。Bison 还可以生成 IELR (1) 或规范 LR (1) 解析表。一旦您熟练使用 Bison,您可以使用…

37、IO进程线程/使用消息队列完成进程间通信20240225

一、使用消息队列完成两个进程间相互通信。 代码&#xff1a; 进程1代码&#xff1a; #include<myhead.h> struct msgbuf {long mtype;//消息类型char mtext[1024];//消息正文 }; //宏定义结构体消息正文大小 #define MSGSIZE (sizeof(struct msgbuf)-sizeof(long)) i…

微信小程序(四十五)登入界面-简易版

注释很详细&#xff0c;直接上代码 上一篇 此文使用了vant组件库&#xff0c;没有安装配置的可以参考此篇vant组件的安装与配置 新增内容&#xff1a; 1.基础组件的组合 2.验证码倒计时的逻辑处理 源码&#xff1a; app.json {"usingComponents": {"van-field…

RabbitMQ快速入门笔记

学习视频参考 3.RabbitMQ的安装(二)_哔哩哔哩_bilibili 06-MQ的分类_哔哩哔哩_bilibili RabbitMQ官网 RabbitMQ: easy to use, flexible messaging and streaming | RabbitMQ 目录 1.MQ引言 1.1 什么是MQ&#xff1f; 1.2 MQ的分类 1.2.1 ActivaMQ 1.2.2 Kafka 1.2.3 R…

挑战杯 基于机器学习与大数据的糖尿病预测

文章目录 1 前言1 课题背景2 数据导入处理3 数据可视化分析4 特征选择4.1 通过相关性进行筛选4.2 多重共线性4.3 RFE&#xff08;递归特征消除法&#xff09;4.4 正则化 5 机器学习模型建立与评价5.1 评价方式的选择5.2 模型的建立与评价5.3 模型参数调优5.4 将调参过后的模型重…

Unity3D 使用 Proto

一. 下载与安装 这里下载Google Protobuff下载 1. 源码用来编译CSharp 相关配置 2. win64 用于编译 proto 文件 二. 编译 1. 使用VS 打开 2. 点击最上面菜单栏 工具>NuGet 包管理器>管理解决方案的NuGet 管理包 版本一定要选择咱们一开始下载的对应版本否则不兼容&am…

WPF 【十月的寒流】学习笔记(1):DataGrid过滤

文章目录 相关链接代码仓库前言环境DataGrid 数据筛选项目配置使用原理主要代码&#xff08;详细代码可以看我的GitHub仓库&#xff09;Models.PersonDataGirdViewDataGridViewModel 实现效果 总结 相关链接 十月的寒流 在 WPF 中制作 DataGrid 的数据筛选功能 WPF 中如何制作 …