Diﬀ-Font: Diﬀusion Model for Robust One-Shot Font Generation（用于稳健的单样本字体生成的扩散模型）

news2026/3/23 15:32:27

第一次将Diﬀusion Model用到少样本字体生成领域核心思想是使用条件扩散模型将字体风格骨架笔画部件类型和数量作为条件指导少样本字体生成一. 条件信息提取我们先看风格提取由DG-font预训练的风格编码器提取中训练好的风格编码器被用作我们的预训练风格编码器并且其参数在我们的扩散模型训练中被冻结。我们再看字体骨架风格的提取本项目不再将字体生成作为图像到图像的翻译任务使用来自源域的图像来获得内容表示将不同的字符骨架视为不同的token类似于自然语言处理社区中的词嵌入我们采用嵌入层将字符的不同token转换为不同的内容表示可以有效防止提取骨架时原风格的污染如MX-font找目标字体的不同风格骨架信息时会找多类不同风格骨架信息这里为什么不使用Word2VecBERT等词嵌入模型直接提取词向量呢注意1.词嵌入模型是让模型“认识词”这里需要让模型“写出”具体的字。Word2VecBERT只是字典将词翻译成低维词向量让模型认识词但是无法让模型精准复现字符的字形结构预训练词向量里根本没有生成字形必需的结构骨架信息自然无法用来指导扩散模型 “写字”。2.Word2Vec、BERT 的词向量的核心特性就是语义相似的词向量距离更近。比如 “通” 和 “顺” 的语义高度相关它们的词向量在空间中会非常接近。如果用这类词向量作为生成条件扩散模型根本无法区分 “要生成‘通’还是‘顺’”极易生成错字、结构混乱的字符完全无法满足字体生成对字符身份的精准控制要求。而 Diff-Font 的做法是给每个字符分配唯一的专属 token嵌入层学到的是每个字符独有的、和字形结构强绑定的表示能 100% 精准控制生成的字符身份不会出现混淆。最后看笔画中部件韩信息提取可选对于笔画或部件将每个字符编码成一个32维向量向量的每个维度表示它包含的相应基本笔画或部件的数量。把笔画当作数组下标数组内容为下标笔画的数量此后笔画或部件向量可以扩展为与内容嵌入维度一致的向量。二. 条件扩散模型正向加噪最后的噪声图像是一步步加入噪声叠加形成的论证如下公式三应该存在误印现象根据数学推算可以将3到4详解https://blog.csdn.net/lhjlhjhhh/article/details/155036553?spm1001.2014.3001.5501去噪过程将条件Z和t时刻的图像指导t-1时刻的图像通过预测噪声满足正态分布损失真实噪声-预测噪声微调策略30%概率随机丢弃内容属性或笔画或部件属性向量。如果内容和笔画或部件同时被丢弃则样式属性向量也会被丢弃。这种策略有两个优点首先它可以使我们的模型对这三个属性更加敏感其次它可以减少超参数的数量因为我们只需要两个引导尺度而不是三个。在我们的例子中我们使用零向量来替换丢弃的属性向量表示为0在采样时我们将预测的噪声修改为下图等号左边。提升条件权重将X0由Xt和噪声表示带入公式4得到阶段2预测Xt-1时刻图像

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2440815.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！