SkyReels-Text:Fine-grained Font-Controllable Text Editing for Poster Design
1.introduction专业工作流中一个关键要求是能够快速修改文本内容同时保持原始的视觉和谐排版身份和美学意图这不仅要求精准的字符展示还需要对字体家族和风格细微差别的精细控制尤其是在处理像手写文本这样复杂的文字。seedream4qwen-image目前的模型在精细化字体感知的文本编辑时仍存在根本性的局限这些模型能够将参考字体文本作为视觉上下文进行结合然而他们常常无法正确编辑文本内容或准确的将参考排版转移到目标位置。fluxtext这样的模型将显式的视觉先验例如渲染的文本内容位置掩码注入到强大的DiT主干中他们缺乏接受用户提供的由visual patch提取的任意字体风格的机制无法提供对输出排版的精细控制无法保证编辑后的文本将准确模仿给定参考的字体风格。Skyreel-text是一种新颖的字体可控框架用于微调文本编辑可实现精确的文本内容修改同时保持排版风格。2.Related work通用模型的一个主要限制在于它们主要处理广泛的图像编辑任务因此它们在可靠文本编辑特别是在字体转移场景中的特定健壮性不足。Imagen采用大规模语言模型T5-XXL引入字形感知条件GlyphDraw和GlyphControl使用字形图像来指导字符渲染TextDiffuser则利用OCR生成分割掩码AnyText和DreamText进一步丰富了对样式的控制FluxText和TextFLUX基于flux基础模型构建像DiT骨干网络注入字形先验渲染的字形和位置掩码以增强flux的文本生成能力。SkyReels-Text利用用户提供的字形补丁作为视觉参考而不是单纯依赖文本提示或内部字形先验从而实现可控字体的文本编辑。3.Methods3.1 Preliminary3.2 Data Processing合成数据很多问题从设计平台和公共资源库收集了真实的海报现有的ocr模型对装饰性书法字体或展示不贵咋笔画和非标准空间布局的自定义字形很难识别因此选择对Qwen2.5-vl 7B模型进行微调该模型在解析图像中非标准文本模式方面表现出色。风格迁移学习中的一个关键挑战是内容干扰具体来说模型常常混淆文本中某些字符的内容和风格特征。为了解决这个问题设计了一个专用的数据生产管道。最终创建一个10w样本的配对图像和参考字体。3.3 Font-Controllable Text Editing3.4 Text-Region Weighted loss3.5 Distillation for fast inference使用DMD2对skyreels-text进行了8步蒸馏。4.Experiments4.1 Implementation Details4.2 Evaluation Dataset4.3 Evaluation Metrics4.4 Compare with sota4.5 Ablation studies
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2425890.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!