SD + Contronet,扩散模型V1.5+约束条件后续优化:保存Canny边缘图,便于视觉理解——stable diffusion项目学习笔记

news2025/5/16 14:55:25

目录

前言

背景与需求

代码改进方案

  运行过程:

1、Run​编辑

2、过程:

 3、过程时间线:

4、最终效果展示:

总结与展望

前言

       机器学习缺点之一:即不可解释性。最近,我在使用stable diffusion v1.5 +Contronet优化后(本篇是基于前面contronet继续优化),链接如下:
Stable Diffusion + Contronet,调参实现LPIPS最优(带生成效果+指标对比)——项目学习记录-CSDN博客
       由于Contronet采用Canny边缘图作为约束条件,而最终效果直接展示了生成图像,相当于视觉观察对比只能对原图和生成图出于对可解释性的考虑和定性分析的需要,我决定将中间图单独保存,这样可同时对比原图、边缘图、生成图,更利于理解生成的过程
使用 ControlNet 生成图像并保存中间 Canny 边缘图:代码改进与参数解析,我的思考和实现过程如下:

背景与需求

最近,我与一位朋友讨论了如何利用 ControlNet 模型基于原始图像的 Canny 边缘图生成图像。最初的代码已经能够从输入图像生成边缘图并直接用于生成最终图像。但朋友提出了一个新需求:希望将中间生成的 Canny 边缘图保存到一个单独的文件夹,以便后续对比原始图像、中间边缘图和最终生成图像。这个改进不仅便于调试,还能更清晰地观察生成过程的每一步。

代码改进方案

原始代码的核心逻辑是从文本文件读取图像路径和提示词,生成 Canny 边缘图后直接输入 ControlNet,最终保存生成图像。以下是我对代码做出的改进:

  1. 新增 Canny 边缘图保存路径
    我引入了一个新的文件夹变量 canny_save_dir,用于存储生成的 Canny 边缘图。通过 os.makedirs 来确保该路径存在,用户可以根据需要自定义路径。如:

  2. 保存 Canny 边缘图
    在生成 Canny 边缘图后,新增了保存步骤。边缘图会以原始图像文件名加 _canny 后缀保存,并通过循环检查避免文件名冲突:如下:

    canny_filename = image_name.replace(".jpg", "_canny.png")
    canny_save_path = os.path.join(canny_save_dir, canny_filename)
    if os.path.exists(canny_save_path):
        base_name = os.path.splitext(canny_filename)[0]
        j = 1
        while os.path.exists(os.path.join(canny_save_dir, f"{base_name}_{j}.png")):
            j += 1
        canny_save_path = os.path.join(canny_save_dir, f"{base_name}_{j}.png")
    canny_image_pil.save(canny_save_path)
    print(f"第 {i} 张 Canny 边缘图已保存为 {canny_save_path}")
    

    这里,canny_image_pil 是通过 Image.fromarray 从 OpenCV 的边缘图转换得到的 PIL 图像,确保与 ControlNet 的输入格式兼容。

  3. 完整流程
    改进后的代码保留了原有功能,同时新增了中间结果保存。最终输出包括三个文件夹:

    • image_dir:原始图像

    • canny_save_dir:Canny 边缘图

    • save_dir:ControlNet 生成图像

 

这里,迭代步数依旧采用50步,contrnet强度设置为1,guidance_scale=7.5,前篇没有介绍guidance_scale这个参数,可能有不理解。
解释:
`guidance_scale=7.5` 是 ControlNet 中控制生成图像与提示词一致性的参数,全称是 “Classifier-Free Guidance Scale”。它决定了模型在生成时对文本提示的遵循程度。值越高(如 7.5),生成的图像越贴近提示描述,细节更符合预期;值越低,图像更自由,可能偏离提示。通常设在 7-10 之间,7.5 是一个平衡点,既保证提示的指导性,又保留一定创造性。生动地讲:调整它可以控制生成结果的“听话”程度!
 

  运行过程:


1、Run

 (红色提示涉及一个问题):loading pipeline components,这个需要联网吗?还是直接本地加载的?  回答:第一次会从hugging face加载,后面若无法联网会直接从本地缓存加载,如上图,我关闭了科学上网。可正常加载并生成图像
 

2、过程:

   引入了contronet的sd v1.5生成慢了近十倍
 

3、过程时间线:

19:11 正生成12张

19.16第22张  差不多5分钟生成10张的样子

19:18生成27张  8分钟15、16张的样子

4、最终效果展示:

         

                     原图                                      Canny边缘图                              生成图
                                                                                                        

可能由于没加颜色图、语义图,导致颜色细节捕 捉不够。

总结与展望

这次改进,实现了中间 Canny 边缘图的保存,还理解了 guidance_scale 的作用,并进一步熟悉了生成流程。这样的代码结构更适合研究或调试场景,方便分析生成过程中的每一步。如果你也对 ControlNet 的参数调整或中间结果感兴趣,可以试试这个思路。谢谢观阅。

后续优化思路:可以尝试加入颜色约束、语义约束、深度图约束等。
部署思路:
深度学习项目记录·Stable Diffusion从零搭建、复现笔记-CSDN博客

Stable Diffusion + Contronet,调参实现LPIPS最优(带生成效果+指标对比)——项目学习记录-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333736.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【ROS2】行为树:BehaviorTree

1、简介 与状态机不同,行为树强调执行动作,而不是状态之间的转换。 行为树是可组合的。可以重复使用简单的行为来构建复杂的行为。 在游戏领域,行为树已经比较流行了。主要用于维护游戏角色的各种动作和状态。 ROS2的导航框架Navigation2中引入了行为树来组织机器人的工作流…

《JVM考古现场(十八):造化玉碟·用字节码重写因果律的九种方法》

"鸿蒙初判!当前因果链突破十一维屏障——全体码农修士注意,《JVM考古现场(十八)》即将渡劫飞升!" 目录 上卷阴阳交缠 第一章:混沌初开——JVM因果律的量子纠缠 第二章:诛仙剑阵改—…

使用nuxt3+tailwindcss4+@nuxt/content3在页面渲染 markdown 文档

nuxt3tailwindcss在页面渲染 markdown 文档 页面效果 依赖 “nuxt/content”: “^3.4.0” “tailwindcss”: “^4.0.10” “nuxt”: “^3.16.2” “tailwindcss/vite”: “^4.0.10” tailwindcss/typography (这个是格式化 md 样式用的) 注意: 这里nuxt/content…

Linux网络编程——详解网络层IP协议、网段划分、路由

目录 一、前言 二、IP协议的认识 1、什么是IP协议? 2、IP协议报头 三、网段划分 1、初步认识IP与路由 2、IP地址 I、DHCP动态主机配置协议 3、IP地址的划分 I、CIDR设计 II、子网数目的计算 III、子网掩码的确定 四、特殊的IP地址 五、IP地址的数量限…

【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统

论文:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 地址:https://arxiv.org/abs/2408.11039 类型:理解与生成 Transfusion模型‌是一种将Transformer和Diffusion模型融合的多模态模型,旨…

Microsoft Office 如何启用和正常播放 Flash 控件

对于新安装的 Office 默认是不支持启用 Flash 组件的,Flash 组件会无法播放或者黑屏。 本片文章就带你解决这个问题,相关资料都在下方连接内。前提概要,教程对应的版本是 mso16,即 Office 2016 及更新版本,以及 365 等…

定位改了IP属地没变怎么回事?一文解析

明明用虚拟定位软件将手机位置改到了“三亚”,为何某某应用评论区显示的IP属地还是“北京”?为什么切换了代理IP,平台却似乎“无视”这一变化? 在“IP属地显示”功能普及后,许多用户尝试通过技术手段隐藏真实位置&…

《深入理解生命周期与作用域:以C语言为例》

🚀个人主页:BabyZZの秘密日记 📖收入专栏:C语言 🌍文章目入 一、生命周期:变量的存在时间(一)生命周期的定义(二)C语言中的生命周期类型(三&#…

一个插件,免费使用所有顶级大模型(Deepseek,Gpt,Grok,Gemini)

DeepSider是一款集成于浏览器侧边栏的AI对话工具,可免费使用所有顶级大模型 包括GPT-4o,Grok3,Claude 3.5 Sonnet,Claude 3.7,Gemini 2.0,Deepseek R1满血版等 以极简交互与超快的响应速度,完成AI搜索、实时问答、内容创作、翻译、…

智能车摄像头开源—9 动态权、模糊PID、速度决策、路径优化

目录 一、前言 二、动态权 1.概述 2.偏差值加动态权 三、模糊PID 四、速度决策 1.曲率计算 2.速度拟合 3.速度控制 五、路径 六、国赛视频 一、前言 在前中期通过识别直道、弯道等元素可进行加减速操作实现速度的控制,可进一步缩减一圈的运行速度&#xff…

《2025蓝桥杯C++B组:D:产值调整》

**作者的个人gitee**​​ 作者的算法讲解主页▶️ 每日一言:“泪眼问花花不语,乱红飞过秋千去🌸🌸” 题目 二.解题策略 本题比较简单,我的思路是写三个函数分别计算黄金白银铜一次新产值,通过k次循环即可获…

2025认证杯一阶段各题需要使用的模型或算法(冲刺阶段)

A题(小行星轨迹预测) 问题一:三角测量法、最小二乘法、空间几何算法、最优化方法 问题二:Gauss/Laplace轨道确定方法、差分校正法、数值积分算法(如Runge-Kutta法)、卡尔曼滤波器 B题(谣言在…

①(PROFINET 转 EtherNet/IP)EtherCAT/Ethernet/IP/Profinet/ModbusTCP协议互转工业串口网关

型号 协议转换通信网关 PROFINET 转 EtherNet/IP MS-GW32 概述 MS-GW32 是 PROFINET 和 EtherNet/IP 协议转换网关,为用户提供两种不同通讯协议的 PLC 进行数据交互的解决方案,可以轻松容易将 EtherNet/IP 网络接入 PROFINET 网络中,方便…

国标GB28181视频平台EasyCVR如何搭建汽车修理厂远程视频网络监控方案

一、背景分析 近年我国汽车保有量持续攀升,与之相伴的汽车保养维修需求也逐渐提高。随着社会经济的发展,消费者对汽车维修服务质量的要求越来越高,这使得汽车维修店的安全防范与人员管理问题面临着巨大挑战。 多数汽车维修店分布分散&#…

PostIn安装及入门教程

PostIn是一款国产开源免费的接口管理工具,包含项目管理、接口调试、接口文档设计、接口数据MOCK等模块,支持常见的HTTP协议、websocket协议等,支持免登陆本地接口调试,本文将介绍如何快速安装配置及入门使用教程。 1、安装 私有…

spring cloud微服务API网关详解及各种解决方案详解

微服务API网关详解 1. 核心概念 定义:API网关作为微服务的统一入口,负责请求路由、认证、限流、监控等功能,简化客户端与后端服务的交互。核心功能: 路由与转发:将请求分发到对应服务。协议转换:HTTP/HTTP…

最新版PhpStorm超详细图文安装教程,带补丁包(2025最新版保姆级教程)

目录 前言 一、PhpStorm最新版下载 二、PhpStorm安装 三、PhpStorm补丁 四、运行PhpStorm 前言 PhpStorm 是 JetBrains 公司推出的 专业 PHP 集成开发环境(IDE),专为提升 PHP 开发效率设计。其核心功能包括智能代码补全、实时语法错误检…

linux kernel arch 目录介绍

一:arch 目录 二:常用arch

ES6变量声明:let、var、const全面解析

一、引言 ECMAScript 6(简称 ES6)的发布为 JavaScript 带来了许多革命性的变化,其中变量声明方式的更新尤为重要。let、var和const成为开发者日常编码中频繁使用的关键字。 本文将深入解析这三种声明方式的核心特性、区别及最佳实践&#xff…

Linux 入门八:Linux 多进程

一、概述 1.1 什么是进程? 在 Linux 系统中,进程是程序的一次动态执行过程。程序是静态的可执行文件,而进程是程序运行时的实例,系统会为其分配内存、CPU 时间片等资源。例如,输入 ls 命令时,系统创建进程…