Stable Diffusion进阶之Controlnet插件使用

news2025/5/13 16:18:22

前面已经对Stable Diffusion的文生图和图生图的操作界面做了详细的介绍,接下来会介绍Stable Diffusion的进阶部分Controlnet插件的使用。往期文章详见:

  • 爆肝整理!Stable Diffusion的完全使用手册(一)
  • 爆肝整理!Stable Diffusion的完全使用手册(二)
  • 爆肝整理!Stable Diffusion的完全使用手册(三)
  • 爆肝整理!Stable Diffusion的完全使用手册(四)

一、Controlnet简介

原本Stable Diffusion对图片的约束维度、种类太少,比较宽泛。比如文字描述存在不够准确等问题,像素描述存在将过多维度的信息杂糅到一起,无法提取单一维度的信息等问题。Controlnet的出现是为了解决图像生成随机性过强的问题,它可以从多个角度增加对生成图片的约束,可以从已有的图片中提取出图片特征。

Controlnet是Stable Diffusion区别于其他AI绘画软件的里程碑似得插件,随着时间的推移,Controlnet插件的功能边界会越来越宽广,这也使得Stable Diffusion更加具有不可替代性。

Controlnet的工作流程:

  • 输入要参考(提取特征)的图片。

  • 提取出图片中需要参考的特征。

  • 使用Controlnet模型对提取出来的图片特征进行理解。

  • 根据图片特征生成结果。

二、Controlnet操作界面 

本节先简单讲解下Controlnet的操作界面及按钮功能,详细的使用后续会专门介绍。以下2张截图就是Controlnet的使用界面。

1、控制单元

方便Stable Diffusion从多个维度控制生成的图片特征。比如可以使用OpenPose姿态提取,来对控制单元中上传的图片提取出姿势。

对于提取出来的姿势骨架图,可以自行对骨架图进行调整,Stable Diffusion会根据调整后的骨架图来生成新的图片(效果详见下图)。

原图原图骨架图调整后的骨架图生成的新图

控制单元的个数可以在设置中进行调整。

2、单张图片、批量处理、多张上传

用来给控制单元上传需要处理的参考图。单张图片和多张上传不用多说,分别是上传一张图片以及上传多张图片。批量处理中需要填写文件夹的地址,这样Stable Diffusion在生成图片时会参考文件夹下的所有图片进行图片生成,比如下图中,文件夹中有4张图,设置Stable Diffusion生成1批,每批1张图的情况下,Stable Diffusion会参照文件夹中的每一张图进行生成,最终生成4张图。

单张图片批量处理多张上传

上传图片的右下角有4个小按钮,其功能分别是:

  • 画布:可以新建一个画布,然后使用画笔进行涂鸦绘画。

  • 开启摄像头:可以拍摄一张照片,然后读取照片上的信息特征。

  • 镜像摄像头:开启镜像。

  • 将当前图片尺寸信息发送到生成设置:可以读取到上传的图片的分辨率大小,宽度和高度。

3、启用、低显存模式、完美像素模式、允许预览、高效子区蒙版

  • 启用:

    • 如果要使用Controlnet控制单元,则需要勾选该按钮。启用后Controlnet的控制单元才会起作用。

    • 如果需要使用多个控制单元,则需要使用的每一个控制单元都需要勾选上该按钮。

  • 低显存模式:Controlnet在使用时会额外消耗显存资源,当电脑配置不足时,会存在爆显存问题。勾选后可以降低显存的使用,但是会增加生成图片的时间。(当显存不够8GB的时候可以考虑打开)

  • 完美像素模式:提取的特征参考图,也会有分辨率,特征图的分辨率也会影响生图效果。在该模式出来之前可以通过“预处理器分辨率”来调整特征图的分辨率,值越大提取的特征越详细。完美像素模式会自动计算生成特征图的最佳分辨率。

  • 允许预览:勾选后会展示出提取的特征图。

  • 高效子区蒙版:就是让你像“分块涂色”一样控制生成的图片。可以把画布分成几块,每块单独写提示词。举个栗子🌰:画“左边沙漠+右边雪山+中间站只熊猫”,用蒙版分三块分别写提示词,AI就不会把熊猫画到天上,或者沙漠和雪山糊在一起了。

4、预处理器、模型

Controlnet可以提取图片特征,而预处理器就是用来提取图片特征的。

模型是为了让Stable Diffusion知道如何去识别和理解特征图。

特征图和模型需要对应上才能发挥效果。

5、控制类型

Controlnet的预处理器和模型需要匹配才能正常生成图片。然而Controlnet的预处理器和模型种类非常的多,如何才能正确选择预处理器及其相应的模型是个难题。控制类型的出现就是将预处理器进行分类,并且为每个分类下匹配正确的模型。当选择好预处理器后会自动匹配模型。

有关控制类型的详细功能及使用后续再介绍。 

6、控制权重&引导介入时机&引导终止时机
  • 控制权重:决定Controlnet对图片生成结果的影响程度。值越大则Controlnet对SD的生图效果影响越大。

  • 引导介入时机:与迭代步数有关。假设数值为x,则表示Controlnet在迭代步数*x的时候开始介入,再此之前Controlnet对生图无影响。从迭代步数多少步时Controlnet开始起作用。

  • 引导终止时机:代表Controlnet在多少步之后结束介入。从迭代步数多少步时Controlnet停止起作用。

7、控制模式

当绘画提示词与Controlnet产生冲突时,控制模式可以用来调节冲突。

  • 均衡:提示词与Controlnet并重。实际上更偏Controlnet一点。

  • 更偏向提示词:生成的图片受到提示词的影响更大。

  • 更偏向Controlnet:生成的图片受到Controlnet的影响更大。

8、缩放模式

上传的图片分辨率与生成的图片的分辨率不一样时,可以使用缩放模式来解决Controlnet图片分辨率与基础设置中分辨率不同的情况。

  • 仅调整大小:把参考图强行拉成你设定的尺寸,不管比例是否变形。可以快速填满整个画面不留空白,但是会造成生成的图片严重扭曲。

  • 裁剪后缩放:先一刀切掉参考图多余的部分,再缩放到目标尺寸。可以保证生成图内容不变形,但可能丢失重要信息(如砍掉人脸、关键物体)。

  • 缩放后填充空白:先按比例缩放参考图,再在空白处补上AI生成的内容(或黑边)。可以保证参考图内容不变形,且画面不留黑边。但填补区域可能会风格突兀。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2374774.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Multisim14使用教程详尽版--(2025最新版)

一、Multisim14前言 1.1、主流电路仿真软件 1. Multisim:NI开发的SPICE标准仿真工具,支持模拟/数字电路混合仿真,内置丰富的元件库和虚拟仪器(示波器、频谱仪等),适合教学和竞赛设计。官网:艾…

使用Stable Diffusion(SD)中,步数(Steps)指的是什么?该如何使用?

Ⅰ定义: 在Stable Diffusion(SD)中,步数(Steps) 指的是采样过程中的迭代次数,也就是模型从纯噪声一步步“清晰化”图像的次数。你可以理解为模型在画这张图时“润色”的轮数。 Ⅱ步数的具体作…

【se-res模块学习】结合CIFAR-10分类任务学习

继CIFAR-10图像分类:【Res残差连接学习】结合CIFAR-10任务学习-CSDN博客 再优化 本次训练结果在测试集上的准确率表现可达到90%以上 1.训练模型(MyModel.py) import torch import torch.nn as nnclass SENet(nn.Module): # SE-Net模块def…

【C++设计模式之Template Method Pattern】

C设计模式之Template Method Pattern 模式定义核心思想动机(Motivation)结构(Structure)实现步骤应用场景要点总结 模式定义 模式定义: 定义一个操作中的算法的骨架(稳定),而将一些步骤延迟(变化)到子类中。Template Method使得子…

英伟达Blackwell架构重构未来:AI算力革命背后的技术逻辑与产业变革

——从芯片暴力美学到分布式智能体网络,解析英伟达如何定义AI基础设施新范式 开篇:当算力成为“新石油”,英伟达的“炼油厂”如何升级? 2025年3月,英伟达GTC大会上,黄仁勋身披标志性皮衣,宣布了…

深度拆解!MES如何重构生产计划与排产调度全流程?

☂引言 在制造业数字化转型浪潮中,生产计划与排产调度的精准性直接决定企业竞争力。深蓝易网MES系统通过智能化调度与全流程管控,帮助企业破解排产难题,实现资源高效协同与生产透明化管理,为制造企业打造柔性化、敏捷化的生产体系…

信息系统项目管理师-软考高级(软考高项)​​​​​​​​​​​2025最新(十八)

个人笔记整理---仅供参考 第十八章项目绩效域 18.1干系人绩效域 18.2团队绩效域 18.3开发方法和生命周期绩效域 18.5项目工作绩效域 18.6交付绩效域 18.7度量绩效域 18.8不确定绩效域

UniDevTools - UniApp(前端app)调试工具使用

使用介绍 | UniDevTools 兼容框架: Vue2jsvuexVue3tsvuex(pinia)√√ 兼容平台: H5APP微信小程序APP-NVUE其他小程序UniAppX√√√√(大部分功能支持)未测试 (待办中) 下载安装 将下载好的源码解压至项目根目录,文件夹命名为 devTools …

spring中的@Lazy注解详解

一、核心功能与作用 Lazy 注解是 Spring 框架中用于延迟 Bean 初始化的核心工具,通过将 Bean 的创建推迟到首次使用时,优化资源利用和启动性能。其核心功能包括: 延迟初始化 默认情况下,Spring 在容器启动时立即初始化所有单例 …

视觉-语言-动作模型:概念、进展、应用与挑战(上)

25年5月来自 Cornell 大学、香港科大和希腊 U Peloponnese 的论文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。 视觉-语言-动作 (VLA) 模型标志着人工智能的变革性进步,旨在将感知、自然语言理解和具体动作统一在一个计…

语义分割模型部署到嵌入式终端的通用操作流程

以下是语义分割模型部署到嵌入式终端的通用操作流程,结合不同硬件平台(如华为Atlas、地平线J5、树莓派等)的共性需求整理而成: 一、环境准备与工具链配置 1. 嵌入式开发环境搭建 安装交叉编译工具链(如ARM-GCC&…

R1-Searcher:用强化学习解锁大语言模型检索新能力!

R1-Searcher:用强化学习解锁大语言模型检索新能力! 大语言模型(LLMs)发展迅猛,却常因依赖内部知识而在复杂问题上“栽跟头”。今天解读的论文提出R1-Searcher框架,通过强化学习提升LLMs检索能力。它表现超…

第一篇 世界观安全

目录 STRIDE模型 五大原则 一黑白名单 二最小权限原则 三纵深防御原则 四数据和代码分离 五不可预测原则 安全的问题本质是信任问题。 并且安全是一个持续的过程。 安全的三要素:机密性,完整性(可以采用数字签名)&#x…

mac M2能安装的虚拟机和linux系统系统

目前网上的资料大多错误,能支持M2的很少。 推荐安装的改造过的centos7也无法进行yum操作,建议安装centos8 VMware Fusion下载地址: https://pan.baidu.com/s/14v3Dy83nuLr2xOy_qf0Jvw 提取码: jri4 centos8下载地址: https://…

无偿帮写毕业论文

以下教程教你如何利用相关网站和AI免费帮你写一个毕业论文。毕竟毕业论文只要过就行,脱产学习这么多年,终于熬出头了,完成毕设后有空就去多看看亲人好友,祝好! 一、找一个论文模板(最好是overleaf) 废话不多说&#…

智能网联汽车“内外协同、虚实共生”的通信生态

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 钝感力的“钝”,不是木讷、迟钝,而是直面困境的韧劲和耐力,是面对外界…

Linux操作系统从入门到实战(六)Linux开发工具(上)详细介绍什么是软件包管理器,Linux下如何进行软件和软件包的安装、升级与卸载

Linux操作系统从入门到实战(六)Linux开发工具(上)详细介绍什么是软件包管理器,Linux下如何进行软件和软件包的安装、升级与卸载 前言一、 软件包管理器1.1 传统安装方式的麻烦:从源代码说起1.2 软件包&…

物流无人机自动化装卸技术解析!

一、自动化装卸技术模块的技术难点 1. 货物多样性适配 物流场景中货物包装类型、尺寸、材质差异大,如农产品、医疗物资、工业设备等,要求装卸模块具备高度柔性化设计。例如,单元货物需视觉识别系统进行单个抓取,而整托货物需大…

IOT藍牙探測 C2 架構:社會工程/節點分離防追尋

BMC 地址:https://github.com/MartinxMax/bmc/releases/tag/V1.5 藍牙 MAC 偵測節點的物聯網分散式 C2 架構,可與 S-Cluster 交互。 場景 A:潛伏偵測 駭客組織會將 BMC 裝置秘密部署在目標建築物周圍(例如牆外、通風口或垃圾間等隱蔽地點&…

FreeRTOS学习记录(变量命名规则全解、文件介绍)

目录 FreeRTOS 变量命名规则详解​ ​一、变量命名前缀规则​ (一)数据类型相关前缀​ (二)功能模块相关前缀​ (三)宏定义 二、变量命名与文件的关系​ (一)核心源文件中的变…