【AI绘画 | draft意间】国产draft推荐及AI绘画背后的原理解读

news2025/8/13 12:16:49

在这里插入图片描述


在这里插入图片描述



个人名片:

🐼作者简介:一名大二在校生,喜欢编程🎋
🐻‍❄️个人主页🥇:小新爱学习.
🐼个人WeChat:hmmwx53
🕊️系列专栏:🖼️

  • 零基础学Java——小白入门必备
  • 重识C语言——复习回顾
  • 计算机网络体系———深度详讲
  • 微信小程序开发——实战开发

🐓每日一句:🍭我很忙,但我要忙的有意义!



标题

Ai绘画最近可谓是火到不行,它的出现让很多人感叹道时代真的变了。无数高质量的画作随着Ai绘画的出现而出现,让毫无画画基础的人也能成为绘画大师,只需要输入一个或几个关键词就能生成画作,这无疑是一件“颠覆”的事情。

就比如最近在朋友圈,抖音、快手等短视频平台上刷到一些奇特的图画,这些图画绝大部分都不是人工绘画完成的,而是通过ai完成的,只需要输入一些清晰易懂的文字tag,即可在很短的时间内得到一张同样效果不错的画面。这就是现在非常火的ai绘画。那么ai绘画究竟是什么呢?

所谓AI绘画就是“人工智能绘画”。简单来说,就是机器人画画,然而要让机器人工作,就得需要指令,用ai绘画,我们的指令就是关键词,相较于过去无论是传统手绘还是CG绘画,创作者都需要花一定的时间才能完成一张作品,但在今年引爆绘画行业的AI绘画软件一个关键词可以生成无数张内容不一的画面!

AI 绘画——draft意间

意间传送门

那么该如何使用AI绘画呢?

1.首先浏览器搜索draft.art,进入意间官网

在这里插入图片描述

2. 可以在社区选择自己喜欢的模板,也可以直接选择绘图

在这里插入图片描述

3. 各个板块使用介绍,让你如鱼得水


原图:(我家宝贝,禁止盗图!!!
在这里插入图片描述
根据关键词,AI绘制后:
在这里插入图片描述
得出结论,这AI真拉,哈哈哈,开玩笑的。

国产AI绘画——draft有什么优势特点呢?

  1. 移动端/pc端输入网址draft.art即可使用,操作简单,无需下载,最重要的是免费

  2. 速度飞快,十秒内出图,免费下载

  3. 社区内海量瀑布流素材模板,各类词库随意选择,提供无限灵感创意

  4. 中英文都支持,输入关键字,随心创作,你就是“梵高”

AI 绘画的实现原理!!!技术解读

AI绘画的算法精髓还是比较复杂的。不过简而言之所谓的AI绘画,是指利用电脑运行,使用AI(人工智能)算法来自主生成的绘画方式。具体的绘画是通过AI算法经过大量真实存在的画师作品中,进行归纳和学习来完成创作。

技术解读

看到历史和一些生动的例子,是不是觉得AI生成各种内容已经就在眼前了?我们可以随便写几句话就能生成精美的图片、视频、声音满足各种需求了?但是实际操作上依然会有很多的限制。下面我们就来适当剖析一下最近较热的文本生成图片和视频技术原理,到底实现了什么功能以及相关的局限性在哪里,后面我们再针对实际游戏内容做一些demo,更贴合应用场景的了解这些局限性。

(一)Text-to-Image技术

不同的AI图片生成器技术结构上会有差别,本文在最后也附上了一些重要模型的参考文献。我们在这里主要针对最近热门的Stable Diffusion和DALL-E 2做一些解读和讨论。这类的AI生成模型的核心技术能力就是,把人类创作的内容,用某一个高维的数学向量进行表示。如果这种内容到向量的“翻译”足够合理且能代表内容的特征,那么人类所有的创作内容都可以转化为这个空间里的向量。当把这个世界上所有的内容都转化为向量,而在这个空间中还无法表示出来的向量就是还没有创造出来的内容。而我们已经知道了这些已知内容的向量,那我们就可以通过反向转化,用AI“创造”出还没有被创造的内容。

Stable Diffusion

Stable Diffusion的整体上来说主要是三个部分,language model、diffusion model和decoder。

在这里插入图片描述

Language model主要将输入的文本提示转化为可以输入到diffusion model使用的表示形式,通常使用embedding加上一些random noise输入到下一层。

diffusion model主要是一个时间条件U-Net,它将一些高斯噪声和文本表示作为模型输入,将对应的图像添加一点高斯噪声,从而得到一个稍微有噪点的图像,然后在时间线上重复这个过程,对于稍微有噪点的图像,继续添加高斯噪声,以获得更有噪点的图像,重复多次到几百次后就可以获得完全嘈杂的图像。这么做的过程中,知道每个步骤的图像版本。然后训练的NN就可以将噪声较大的示例作为输入,具有预测图像去噪版本的能力。

在训练过程中,还有一个encoder,是decoder的对应部分,encoder的目标是将输入图像转化为具有高语义意义的缩减采样表示,但消除与手头图像不太相关的高频视觉噪声。这里的做法是将encoder与diffusion的训练分开。这样,可以训练encoder获得最佳图像表示,然后在下游训练几个扩散模型,这样就可以在像素空间的训练上比原始图像计算少64倍,因为训练模型的训练和推理是计算最贵的部分。

decoder的主要作用就是对应encoder的部分,获得扩散模型的输出并将其放大到完整图像。比如扩散模型在64x64 px上训练,解码器将其提高到512x512 px。

DALL-E 2

DALL-E 2其实是三个子模块拼接而成的,具体来说:

  • 一个基于CLIP模型的编码模块,目标是训练好的文本和图像encoder,从而可以把文本和图像都被编码为相应的特征空间。

  • 一个先验(prior)模块,目标是实现文本编码到图像编码的转换。

  • 一个decoder模块,该模块通过解码图像编码生成目标图像。

在本篇文章开始前,希望你可以了解go的一些基本的内存知识,不需要太深入,简单总结了如下几点:
在这里插入图片描述

从上面的模型拆解中可以看出,DALL-E 2和Stable Diffusion的text encoder都是基于openAI提出的CLIP,图像的生成都是基于diffusion model。其中,CLIP是学习任意给定的图像和标题(caption)之间的相关程度。其原理是计算图像和标题各自embedding之后的高维数学向量的余弦相似度(cosine similarity)。
在这里插入图片描述

(二)Text-to-Video技术

文本生成视频大概从2017年就开始有一些研究了,但一直都有很多限制。而从今年10月初Meta宣布了他们的产品Make-A-Video以及Google宣布了Imagen Video。这两款都是创新了Text-to-Video的技术场景。而这两款最新产品都是从他们的Text-to-Image产品衍生而言的,所以技术实现方式也是基于Text-to-Image的技术演变而成。

本质上来说我们可以认为静态图片就是只有一帧的视频。生成视频需要考虑图片中的元素在时间线上的变化,所以比生成照片会难很多,除了根据文本信息生成合理和正确的图片像素外,还必须推理图片像素对应的信息如何随时间变化。这里我们主要根据Make-A-Video的研究论文做一下拆解。

Meta’s Make-A-Video

Make-A-Video正是建立在text-to-Image技术最新进展的基础上,使用的是一种通过时空分解的diffusion model将基于Text-to-Image的模型扩展到Text-to-Video的方法。原理很直接:

  • 从文本-图像数据里学习描述的世界长什么样(文本生成图像)

  • 从无文本的视频数据中学习世界的变化(图像在时间轴上的变化)

训练数据是23亿文本-图像数据(Schuhmann et al),以及千万级别的视频数据(WebVid-10M and HD-VILA-100M)。

整体上来说Make-A-Video也是有三个重要组成部分,所有的组成部分都是分开训练:

基于文本图像pair训练的基本的Text-to-Image的模型,总共会用到三个网络:

  • Prior网络:从文本信息生成Image特征向量,也是唯一接收文本信息的网络。

  • Decoder网络:从图像特征网络生成低分辨率64x64的图片。

两个空间的高分辨率网络:生成256x256和768x768的图片。

时空卷积层和注意层,将基于第一部分的网络扩展到时间维度

在模型初始化阶段扩展包含了时间维度,而扩展后包括了新的注意层,可以从视频数据中学习信息的时间变化

temporal layer是通过未标注的视频数据进行fine-tune,一般从视频中抽取16帧。所以加上时间维度的decoder可以生成16帧的图片

以及用于高帧速率生成的插帧网络

空间的超分辨率模型以及插帧模型,提高的高帧速率和分辨率,让视觉质量看起来更好。

在这里插入图片描述

举例:

(一)文本生成图像

文本描述生成的结果会有一些随机性,生成的图片大概率是很难完全按照“需求”生成,更多带来的是“惊喜”,这种惊喜在一定的层面上代表的也是一种艺术风格。所以在实际的使用中并不是很适用于按照严格要求生产图片的任务,而更多的适用于有一定的描述,能够给艺术创意带来一些灵感的迸发和参考。

文本的准确描述对于生成的图片样子是极其重要的,技术本身对文本描述和措辞有较高要求,需对脑海中的核心创意细节有较为准确的描述。

庄周
在这里插入图片描述

经过关键字输入:Ultra detailed illustration of a butterfly anime boy covered in liquid chrome, with green short hair, beautiful and clear facial features, lost in a dreamy fairy landscape, crystal butterflies around, vivid colors, 8k, anime vibes, octane render, uplifting, magical composition, trending on artstation

在这里插入图片描述

(二)图像融合和变换

图像本身的融合变换在早几年的时候就已经有了一些研究和探索,且有了相对较为成熟的生成的样子,这里我们使用和平精英的素材尝试做一种变换风格的样子。

和平精英素材原图和星空:
在这里插入图片描述
更加深度的将星空的颜色和变化融合到原始图片中:
在这里插入图片描述

详情资料请查看

AI技术原理——原文:AI绘画火了!一文看懂背后技术原理
参考资料:

  1. https://arxiv.org/pdf/2209.14697.pdf

  2. https://arxiv.org/pdf/2112.10752.pdf

  3. [1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution

  4. https://arxiv.org/pdf/2204.06125.pdf

  5. https://imagen.research.google

  6. [2105.05233] Diffusion Models Beat GANs on Image Synthesis

  7. https://ommer-lab.com/research/latent-diffusion-models/


在这里插入图片描述

欢迎添加微信,加入我的核心小队,请备注来意

👇👇👇👇👇👇👇👇👇👇👇👇👇👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/15002.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络—网络层

网络协议 IP 概述 因为网络层是整个互联网的核心,因此应当让网络尽可能简单。网络层提供简单灵活的、无连接的、尽最大努力交互的数据报服务。 使用 IP 协议,可以把异构的物理网络连接起来,使网络层像统一的网络 与 IP 协议配套使用有三种…

Molecular Psychiatry:神经成像预测模型在心理健康领域的未来趋势

使用神经成像数据的预测建模有潜力提高我们对精神障碍的神经生物学基础和推定的信息干预的理解。因此,有大量的文献回顾了已发表的研究,机器学习的数学基础,以及使用这些方法的最佳实践。随着我们在心理健康和机器学习方面的知识不断发展&…

【分布式应用】GFS分布式文件系统

文件系统:用于存储和管理文件的相关系统。 FS(文件系统)的作用:从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。 具体地说,它负责为用户建…

Windows重启时的电脑蓝屏怎么办?

在使用Windows电脑时,最害怕的是遇到系统突然崩溃的情况,特别是出现蓝屏。蓝屏可能会导致数据丢失、无法启动Windows等糟糕的情况。那电脑重启时蓝屏怎么解决? 解决方法一、使用系统还原撤消最近的更改 Windows中的系统还原功能是一个便利的…

html5+css3

目录 一、html简介: 1、什么是网页? 2、什么是html? 3、网页的形成 二、常用的浏览器 三、web标准(重点) 1、为什么要使用web标准? 2、遵循web标准的优点: 四、html语法规范 1、基本语…

Hadoop架构、组件、及其术语汇总和理解

推荐大象教程,介绍Hadoop、HDFS、MapReduce架构和工作原理相对来说非常的清晰。其内容是与《Hadoop the Definitive Guide》基本一致的。讲解的很细致、细节,又带了一些个人的理解和举例子,比较易懂,是比Hadoop官网更值得一看的入…

Assignment写作怎么避免不及格的情况出现?

俗语说得好,犯错误是在所难免的。中西方教育方式大不相同,对Assignment的写作要求也有所不同。刚到国外时,留学生对国外的教育制度和学习过程缺乏了解。难怪在日常学习中,尤其是在英文Assignment写作过程中,留学生都会…

限时开源,来自大佬汇总的Kafka限量笔记,绝对不会后悔!

前言 今天我们来聊聊 Kafka ,主要是带你重新认识一下 Kafka,聊一下 Kafka 中比较重要的概念和问题。 我们现在经常提到 Kafka 的时候就已经默认它是一个非常优秀的消息队列了,我们也会经常拿它给 RocketMQ、RabbitMQ 对比。我觉得 Kafka 相…

GaussDB CN服务异常实例分析

摘要:先通过OPS确认节点状态是否已经恢复,或登录后台执行cm_ctl query -Cv确认集群是否已经Normal。本文分享自华为云社区《【实例状态】GaussDB CN服务异常》,作者:酷哥。 确认节点状态 先通过OPS确认节点状态是否已经恢复&…

sqoop部署

一、实验介绍 1.1实验内容 本次实验包括sqoop安装部署及利用Sqoop在mysql数据库与hive之间进行数据迁移。 1.2实验知识点 Sqoop安装 mysql到Hive数据迁移 1.3实验环境 Sqoop-1.4.7 网易云平台 1.4实验资源 资源名称存储目录Sqoop安装包/opt/software/package/1.5实验步…

原生 canvas 如何实现大屏?

前言 可视化大屏该如何做?有可能一天完成吗?废话不多说,直接看效果,线上 Demo 地址 lxfu1.github.io/large-scree…。 看完这篇文章(这个项目),你将收获: 全局状态真的很简单&…

多篇《Nature》和《Science》关于马约拉纳费米子的研究论文近日被撤稿

马约拉纳费米子(英语:Majorana fermion)是一种假设粒子,它的反粒子就是它本身,1937年,埃托雷马约拉纳发表论文假想这种粒子存在,因此而命名。与之相异,狄拉克费米子,指的…

当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界

导读 用户生成内容(User Generated Content,UGC)是互联网上多模态内容的重要组成部分,UGC数据级的不断增长促进了各大多模态内容平台的繁荣。在海量多模态数据和深度学习大模型的加持下,AI生成内容(AI Gen…

(七)文件——PHP

文章目录第七章 文件1 文件包含**1.1 include()函数****1.2 require()函数**2 文件的读取和写入**2.1 文件模式****2.2 文件读取****2.3 文件写入**3 文件上传3.1 创建表单3.2 创建脚本3.3 实例第七章 文件 1 文件包含 您可以在服务器执行PHP文件之前将其内容包含到另一个PHP…

支付宝"手机网站支付"主域名申请了,二级域名还要申请吗

微信商城小程序里可以用支付宝付款吗?当然可以了,不过需要去支付宝官方网站去申请一个接口,注意选对产品,支付宝提供了很多种接口,微信里要用到的支付宝付款属于“手机网站支付”这个产品,重要的事情说三遍…

一文讲解,Linux内核——内存管理(建议收藏)

一.内存的基础知识: 1.写程序到程序运行的过程: (1)编译:由编译程序将用户代码编译成若干个目标模块(把高级语言翻译成机器语言) (2)链接:由链接程序将编译…

头歌平台-MongoDB 之滴滴、摩拜都在用的索引

第1关:了解并创建一个简单索引 > use test switched to db test > db.student.insert([{_id:1,name:"王小明",age:15,score:90},{_id:2,name:"周晓晓",age:18,score:86},{_id:3,name:"王敏",age:20,score:96},{_id:4,name:&qu…

kudu集群数据节点(tserver)扩容(缩容)

背景: 4个数据节点有数据倾斜,rebalance后依旧如此,检查分片数量和分布情况也是均衡的。最后发现相同的分片在其中一个节点存储消耗的磁盘资源比其他节点要大很多,导致了这个节点磁盘消耗较快。于是决定更换节点的磁盘 操作计划如…

【freeRTOS】操作系统之一-任务调度

一. 任务调度 ​ FreeRTOS操作系统支持三种调度方式:抢占式调度,时间片调度和合作式调度。实际应用主要是抢占式调度和时间片调度,合作式调度用到的很少。 挂起/阻塞/就绪/运行 三种基本状态 进程在运行中不断地改变其运行状态。通常&…

智能网联汽车网络安全攻击与防御技术概述

作者 | 王博文 上海控安可信软件创新研究院研究员 来源 | 鉴源实验室 01 引言 在汽车电动化、网联化、智能化和共享化等新四化的发展趋势下,智能网联汽车(Intelligent Connected Vehicles,ICVs)已经是新时代的必然产物。在智能网…