AI绘画风格迁移实战:将照片转化为梵高_莫奈画风
AI绘画风格迁移实战手把手教你把照片变成梵高《星夜》或莫奈《睡莲》一、引言当照片遇见大师的画笔清晨的露珠挂在草叶上你用手机拍了一张微距照——晶莹的水珠里映着蓝天像一颗小星球。这时你突然想如果让莫奈来画这颗水珠会是什么样子或者你拍了一张深夜的城市星空密集的灯光像碎钻你又想如果梵高的旋转笔触扫过这片星空会不会变成另一个《星夜》这些曾经只存在于想象中的场景现在借助AI风格迁移技术普通人也能亲手实现。不需要懂油画技法不需要买颜料画布只需要几行代码就能让你的照片“穿上”大师的“风格外衣”。这篇文章会带你从0到1完成风格迁移先搞懂风格迁移的核心原理用“情节与文风”的类比让你5分钟理解CNN的作用再手把手教你搭建环境、写代码复制粘贴就能跑通最后用两张实战案例星空转《星夜》、荷花转《睡莲》让你亲眼看到照片“变身”的过程。无论你是AI新手还是想玩点新花样的摄影爱好者都能跟着做出来——相信我这比你想象中简单得多。二、基础概念风格迁移到底是怎么回事在开始写代码之前我们需要先搞清楚AI是如何把照片变成大师画风的这里用一个简单的类比帮你理解假设你有一篇文章内容是“小明在海边看日落”这是内容而你想把它改成“海明威风格”这是风格。海明威的风格是什么简短有力的句子、冷静的叙述、少用形容词。那么“风格迁移”的过程就是保留“小明看日落”的情节把句子改成海明威的文风。放在图像里内容是照片中的“主体”比如星空里的月亮、荷花的形状风格是大师的“绘画特征”比如梵高的旋转笔触、莫奈的色彩晕染。AI要做的就是保留内容图的主体把风格图的“绘画特征”迁移过去。1. 关键技术卷积神经网络CNN要实现这个过程需要用到卷积神经网络CNN——它就像一个“图像解析器”能从图像中提取出“内容特征”和“风格特征”。比如当我们用CNN处理一张照片时内容特征来自网络的中间层比如VGG19的conv4_2层这些层能识别图像中的“具体物体”比如月亮、荷花因为它们已经学会了“边缘、形状、纹理”等高级特征风格特征来自网络的多个层比如VGG19的conv1_1、conv2_1、conv3_1等这些层能识别图像中的“风格元素”比如笔触方向、色彩搭配、纹理模式而Gram矩阵一种计算特征相关性的方法会把这些风格元素量化成数值。简单来说内容损失Content Loss衡量生成图与内容图的“主体相似度”比如月亮的位置对不对风格损失Style Loss衡量生成图与风格图的“风格相似度”比如笔触是不是像梵高总损失Total Loss内容损失 风格损失权重可调AI通过优化总损失让生成图既保留内容又有风格。2. 核心公式不用记理解就行假设( C ) 是内容图( S ) 是风格图( G ) 是生成图( F_C ) 是内容图的特征来自中间层( F_G ) 是生成图的特征( G_S ) 是风格图的Gram矩阵( G_G ) 是生成图的Gram矩阵那么内容损失( L_{content} \frac{1}{2} \sum (F_G - F_C)^2 )越小内容越像风格损失( L_{style} \sum \omega_l \times \frac{1}{4N_l2M_l2} \sum (G_G^l - G_Sl)2 )( \omega_l ) 是各层的权重越小风格越像总损失( L_{total} \alpha \times L_{content} \beta \times L_{style} )( \alpha/\beta ) 控制内容与风格的平衡比如( \alpha1, \beta1e6 ) 时风格更突出。三、准备工作环境搭建与工具安装接下来我们需要搭建一个能运行风格迁移的环境。这里推荐用Anaconda管理Python环境PyTorch深度学习框架因为它们对新手友好且社区支持好。1. 先决条件一台电脑Windows/Mac/Linux都行安装了Anaconda下载地址https://www.anaconda.com/基本的Python知识能看懂print语句就行。2. 步骤1创建虚拟环境打开Anaconda PromptWindows或终端Mac/Linux输入以下命令创建一个名为style-transfer的虚拟环境conda create-nstyle-transferpython3.9激活环境conda activate style-transfer3. 步骤2安装依赖包我们需要安装以下包torchPyTorch框架torchvisionPyTorch的视觉工具库包含预训练模型numpy数值计算库pillow图像处理库matplotlib绘图库用于显示图像。输入以下命令安装国内用户可以加-i https://pypi.tuna.tsinghua.edu.cn/simple加速pipinstalltorch torchvision numpy pillow matplotlib4. 验证安装输入python进入Python交互模式然后输入importtorchprint(torch.__version__)# 输出PyTorch版本比如2.0.1print(torch.cuda.is_available())# 输出True表示支持GPU可选没有GPU也能跑就是慢一点如果没有报错说明环境搭建成功四、代码实现从0到1完成风格迁移现在进入最核心的部分——写代码。我们会用PyTorch实现风格迁移步骤如下导入必要的库加载预训练的VGG19模型定义内容损失和风格损失加载并预处理图像内容图、风格图优化生成图通过反向传播调整像素保存并显示结果。1. 步骤1导入库首先我们需要导入所有需要的库importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportmodels,transformsfromPILimportImageimportmatplotlib.pyplotaspltimportnumpyasnp# 设置设备优先用GPU没有就用CPUdevicetorch.device(cudaiftorch.cuda.is_available()elsecpu)print(f使用设备{device})2. 步骤2加载预训练的VGG19模型我们用VGG19模型因为它在风格迁移中效果很好并且去掉它的分类层因为我们不需要分类只需要提取特征。代码如下defload_vgg19():# 加载预训练的VGG19模型不包含顶部的分类层vggmodels.vgg19(pretrainedTrue).features.to(device).eval()# 冻结模型参数不需要训练模型只需要提取特征forparaminvgg.parameters():param.requires_grad_(False)returnvgg vggload_vgg19()3. 步骤3定义内容损失和风格损失接下来我们需要定义两个损失函数内容损失衡量生成图与内容图的主体相似度和风格损失衡量生成图与风格图的风格相似度。1内容损失内容损失很简单就是生成图与内容图在中间层的特征差的平方和classContentLoss(nn.Module):def__init__(self,target_features):super(ContentLoss,self).__init__()# 目标特征内容图的特征不需要梯度self.targettarget_features.detach()defforward(self,input_features):# 计算生成图特征与目标特征的MSE损失self.lossnn.functional.mse_loss(input_features,self.target)returninput_features2风格损失风格损失需要用到Gram矩阵计算特征之间的相关性步骤如下把特征图的形状从(batch, channels, height, width)转换成(channels, height*width)计算Gram矩阵特征图与自身的转置乘积计算生成图Gram矩阵与风格图Gram矩阵的MSE损失。代码如下classStyleLoss(nn.Module):def__init__(self,target_features):super(StyleLoss,self).__init__()# 目标Gram矩阵风格图的Gram矩阵不需要梯度self.targetself.compute_gram_matrix(target_features).detach()defcompute_gram_matrix(self,features):# 特征图形状(batch, channels, height, width)batch_size,channels,height,widthfeatures.size()# 转换成(channels, height*width)featuresfeatures.view(batch_size*channels,height*width)# 计算Gram矩阵(channels, channels)gramtorch.mm(features,features.t())# 归一化避免数值过大returngram/(batch_size*channels*height*width)defforward(self,input_features):# 计算生成图的Gram矩阵gram_inputself.compute_gram_matrix(input_features)# 计算MSE损失self.lossnn.functional.mse_loss(gram_input,self.target)returninput_features4. 步骤4加载并预处理图像接下来我们需要加载内容图你要转换的照片和风格图大师的画作并对它们进行预处理因为VGG19需要特定的输入格式。1预处理函数预处理步骤包括调整图像大小让内容图和风格图的大小一致比如512x512转换成TensorPyTorch的张量格式归一化用ImageNet的均值和标准差因为VGG19是在ImageNet上预训练的。代码如下defpreprocess_image(image_path,size(512,512)):# 定义预处理管道transformtransforms.Compose([transforms.Resize(size),# 调整大小transforms.ToTensor(),# 转换成Tensor范围0-1transforms.Normalize(mean[0.485,0.456,0.406],std[0.229,0.224,0.225])# 归一化])# 加载图像并预处理imageImage.open(image_path).convert(RGB)imagetransform(image).unsqueeze(0)# 增加batch维度变成(1, 3, H, W)returnimage.to(device)defdeprocess_image(tensor):# 逆归一化把Tensor转换成图像tensortensor.squeeze(0)# 去掉batch维度tensortensor*torch.tensor([0.229,0.224,0.225]).to(device)torch.tensor([0.485,0.456,0.406]).to(device)tensortensor.clamp(0,1)# 把值限制在0-1之间imagetransforms.ToPILImage()(tensor.cpu())# 转换成PIL图像returnimage2加载图像假设你有以下两张图内容图content.jpg比如你拍的星空照片风格图style.jpg比如梵高的《星夜》。用以下代码加载# 调整图像大小根据你的电脑性能可以选256x256或512x512越大越慢image_size512# 加载内容图和风格图content_imagepreprocess_image(content.jpg,size(image_size,image_size))style_imagepreprocess_image(style.jpg,size(image_size,image_size))# 显示原始图像可选defshow_image(image,title):imagedeprocess_image(image)plt.imshow(image)plt.title(title)plt.axis(off)plt.show()show_image(content_image,内容图原始照片)show_image(style_image,风格图梵高《星夜》)5. 步骤5构建风格迁移管道现在我们需要把VGG19模型、内容损失、风格损失组合成一个管道这样在处理生成图时就能同时计算内容损失和风格损失。1选择特征层首先我们需要选择哪些层来提取内容特征和风格特征。根据经验内容特征选中间层比如conv4_2因为这些层能保留足够的内容信息风格特征选多个层比如conv1_1、conv2_1、conv3_1、conv4_1、conv5_1因为这些层能提取不同尺度的风格信息比如conv1_1提取边缘conv5_1提取全局纹理。代码如下# 内容特征层选conv4_2content_layers[conv4_2]# 风格特征层选conv1_1、conv2_1、conv3_1、conv4_1、conv5_1style_layers[conv1_1,conv2_1,conv3_1,conv4_1,conv5_1]# 风格层的权重可以调整比如让深层的风格权重更大style_weights[1.0,0.8,0.5,0.3,0.1]2构建管道我们需要遍历VGG19的层把内容损失和风格损失插入到对应的位置。代码如下defbuild_style_transfer_model(vgg,content_image,style_image,content_layers,style_layers,style_weights):# 初始化内容损失和风格损失列表content_losses[]style_losses[]# 构建模型管道sequentialmodelnn.Sequential()# 遍历VGG的层vgg.features的层是按顺序排列的i0# 层计数器用于给conv层编号forlayerinvgg.children():ifisinstance(layer,nn.Conv2d):i1namefconv{i}_{1}# 比如conv1_1、conv2_1等elifisinstance(layer,nn.ReLU):namefrelu{i}_{1}# 把ReLU换成In-placeFalse的版本避免修改输入张量layernn.ReLU(inplaceFalse)elifisinstance(layer,nn.MaxPool2d):namefpool{i}_{1}elifisinstance(layer,nn.BatchNorm2d):namefbn{i}_{1}else:raiseRuntimeError(f未知层类型{layer.__class__.__name__})# 把层添加到模型管道model.add_module(name,layer)# 检查是否是内容层如果是添加内容损失ifnameincontent_layers:# 提取内容图的特征content_featuresmodel(content_image)# 创建内容损失模块content_lossContentLoss(content_features)# 添加到模型管道model.add_module(fcontent_loss_{i},content_loss)# 添加到内容损失列表content_losses.append(content_loss)# 检查是否是风格层如果是添加风格损失ifnameinstyle_layers:# 提取风格图的特征style_featuresmodel(style_image)# 创建风格损失模块根据风格层的权重style_lossStyleLoss(style_features)# 添加到模型管道model.add_module(fstyle_loss_{i},style_loss)# 添加到风格损失列表带权重style_losses.append(style_loss*style_weights[style_layers.index(name)])# 打印模型管道可选看看结构对不对print(model)returnmodel,content_losses,style_losses# 构建模型管道model,content_losses,style_lossesbuild_style_transfer_model(vggvgg,content_imagecontent_image,style_imagestyle_image,content_layerscontent_layers,style_layersstyle_layers,style_weightsstyle_weights)6. 步骤6优化生成图现在我们需要初始化生成图可以用内容图的副本或者随机噪声然后通过反向传播不断调整生成图的像素最小化总损失内容损失风格损失。1初始化生成图通常我们用内容图的副本作为生成图的初始值因为这样能更快收敛随机噪声需要更多迭代次数# 初始化生成图用内容图的副本需要梯度generated_imagecontent_image.clone().requires_grad_(True).to(device)2设置优化器我们用L-BFGS优化器因为它在风格迁移中效果很好能快速收敛# 设置优化器L-BFGS是风格迁移的常用优化器optimizeroptim.LBFGS([generated_image])3开始优化优化过程是一个循环每次循环都要前向传播用模型管道处理生成图计算内容损失和风格损失计算总损失内容损失之和 风格损失之和反向传播计算总损失对生成图的梯度更新生成图的像素用优化器调整。代码如下注意L-BFGS优化器需要用闭包函数# 优化参数num_iterations1000# 迭代次数越多效果越好1000次大概需要10-30分钟取决于设备content_weight1# 内容权重αstyle_weight1e6# 风格权重β越大风格越突出# 记录损失变化可选content_loss_history[]style_loss_history[]total_loss_history[]# 开始优化foriterationinrange(num_iterations):# 定义闭包函数L-BFGS需要defclosure():# 把生成图的像素限制在0-1之间避免数值溢出generated_image.data.clamp_(0,1)# 清零梯度optimizer.zero_grad()# 前向传播处理生成图model(generated_image)# 计算内容损失所有内容损失之和content_losssum(cl.lossforclincontent_losses)*content_weight# 计算风格损失所有风格损失之和style_losssum(sl.lossforslinstyle_losses)*style_weight# 计算总损失total_losscontent_lossstyle_loss# 反向传播计算梯度total_loss.backward()# 记录损失可选content_loss_history.append(content_loss.item())style_loss_history.append(style_loss.item())total_loss_history.append(total_loss.item())# 打印进度每10次迭代打印一次ifiteration%100:print(f迭代次数{iteration}/{num_iterations})print(f内容损失{content_loss.item():.4f})print(f风格损失{style_loss.item():.4f})print(f总损失{total_loss.item():.4f})print(-*50)returntotal_loss# 优化一步调用闭包函数optimizer.step(closure)# 最后一次调整生成图的像素确保在0-1之间generated_image.data.clamp_(0,1)7. 步骤7保存并显示结果优化完成后我们需要把生成图转换成普通图像并保存下来# 保存生成图generated_image_pildeprocess_image(generated_image)generated_image_pil.save(generated_image.jpg)# 显示结果内容图、风格图、生成图fig,axplt.subplots(1,3,figsize(15,5))ax[0].imshow(deprocess_image(content_image))ax[0].set_title(内容图原始照片)ax[0].axis(off)ax[1].imshow(deprocess_image(style_image))ax[1].set_title(风格图梵高《星夜》)ax[1].axis(off)ax[2].imshow(generated_image_pil)ax[2].set_title(生成图风格迁移后)ax[2].axis(off)plt.show()五、效果优化让你的作品更像大师手笔跑通代码后你可能会发现生成图的效果不够理想比如风格不够突出或者内容模糊。这时可以尝试以下优化技巧1. 调整风格权重与内容权重α/β风格权重β越大生成图的风格越突出内容权重α越大生成图的内容越清晰。通常的经验值是( \alpha 1 )( \beta 1e6 )风格突出( \alpha 10 )( \beta 1e6 )内容更清晰。比如如果你觉得生成图的风格不够像梵高可以把( \beta )调大到( 2e6 )如果觉得内容模糊可以把( \alpha )调大到( 5 )。2. 增加迭代次数迭代次数越多生成图的效果越好因为优化更充分。比如把num_iterations从1000调到2000生成图的笔触会更细腻。3. 选择合适的风格层风格层的选择会影响风格迁移的效果。比如如果你想保留更多的细节比如莫奈的笔触可以增加浅层的权重比如conv1_1的权重设为1.0如果你想保留更多的全局风格比如梵高的色彩可以增加深层的权重比如conv5_1的权重设为0.5。4. 调整图像大小图像越大生成图的细节越多但计算时间越长。比如把image_size从512调到1024生成图的笔触会更清晰但需要更长的时间可能需要1小时以上。5. 尝试不同的预训练模型除了VGG19还可以尝试VGG16、ResNet等预训练模型。比如VGG16的风格迁移效果更简洁ResNet的效果更细腻。六、案例实战把照片变成《星夜》和《睡莲》现在我们用两个实战案例来展示风格迁移的效果案例1星空照片转梵高《星夜》内容图一张深夜的城市星空照片主体是月亮和密集的灯光风格图梵高的《星夜》风格特征是旋转的笔触、强烈的色彩对比参数设置( \alpha 1 )( \beta 1e6 )迭代次数1500次效果生成图中的月亮和灯光保留了原照片的位置但笔触变成了梵高的旋转风格色彩也变得更强烈比如蓝色的天空、黄色的月亮。案例2荷花照片转莫奈《睡莲》内容图一张湖边的荷花照片主体是荷花和荷叶风格图莫奈的《睡莲》风格特征是朦胧的色彩、柔和的笔触参数设置( \alpha 5 )( \beta 5e5 )迭代次数2000次效果生成图中的荷花和荷叶保留了原照片的形状但色彩变得更朦胧比如粉色的荷花、绿色的荷叶笔触也变得更柔和像莫奈的水彩画。注由于篇幅限制这里没有展示具体的图像你可以用自己的照片尝试效果会更直观。七、总结与展望1. 总结通过这篇文章你学会了风格迁移的核心原理用CNN提取内容特征和风格特征通过优化总损失让生成图既保留内容又有风格代码实现步骤环境搭建、加载模型、定义损失函数、预处理图像、优化生成图效果优化技巧调整权重、增加迭代次数、选择合适的风格层。2. 行动号召现在拿起你的照片比如风景照、人像照选一张大师的画作比如梵高、莫奈、毕加索按照本文的步骤尝试一下吧你可以把结果分享到评论区我们一起讨论如何优化。3. 展望未来风格迁移技术还在不断发展未来可能会有以下方向实时风格迁移用更快的模型比如MobileNet实现实时转换比如手机APP中的风格滤镜精准风格控制比如只迁移大师的“笔触”而不改变“色彩”或者只迁移“色彩”而不改变“笔触”多风格迁移同时迁移多个大师的风格比如把照片变成“梵高莫奈”的混合风格。八、附加部分1. 参考文献Gatys, L. A., Ecker, A. S., Bethge, M. (2016).A Neural Algorithm of Artistic Style. arXiv preprint arXiv:1508.06576.风格迁移的原始论文PyTorch官方文档https://pytorch.org/docs/stable/VGG19模型介绍https://arxiv.org/abs/1409.15562. 致谢感谢PyTorch团队提供的优秀框架感谢Gatys等人的开创性工作感谢所有开源社区的贡献者。3. 作者简介我是一名资深软件工程师热爱AI艺术和技术分享。我的博客主要分享AI绘画、深度学习、Python编程等内容希望能帮助更多人入门AI领域。如果你有任何问题可以在评论区留言我会尽力解答。最后祝你玩得开心注本文代码已上传至GitHub地址https://github.com/your-username/style-transfer-demo欢迎star和fork
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2419374.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!