Emu3.5 视觉 tokenizer 及其 decoder 的训练过程
下面我把Emu3.5 视觉 tokenizer 及其 decoder 的训练完整过程,按照“论文明确写到的部分”“公开代码能对上的部分”“需要用开源近似路线复现的部分”三层重新整理。先给结论:结论:Emu3.5 的视觉部分其实不是“一次性训练完一个模块”,而是至少分成两条链路:第一条是vanilla vision tokenizer的训练:卷积式 encoder/decoder + IBQ 量化器 + 大码本 + 重建/感知/GAN/熵/语义蒸馏联合优化;第二条是optional diffusion image decoder的训练:以已经量化好的视觉 token 作为条件,再训练一个基于 flow matching 的高保真图像解码器,并额外做 LoRA distillation 来把采样步数从 50 压到 4。论文还单独扩展了视频 decoder,但那已经超出“图像 tokenizer 本体”的最核心训练链。(arXiv)1. Emu3.5 的 tokenizer 到底训练了什么从论文第 2.3 节、HF 配置、以及公开的IBQ/quantize代码看,Emu3.5 的视觉 tokenizer 本体由这几部分组成:卷积式Encoderquant_conv:把 encoder latent 映射到量化空间IBQ / IndexPropagationQuantizepost_quant_conv:把量化特征映回 decoder 空间卷积式Decoder在公开实现里,IBQ类明确包含encoder、decoder、quantize、quant_conv和post_quant_conv,其前向过程就是encode - quantize - decode。HF 配置则给出了关键结构参数:codebook_size=131072、embed_dim=256、z_channels=256、ch=256、ch_mult=[1,1,2,2,4]、num_res_blocks=4、attn_resolutions=[16]。(GitHub)可以把它概括成下面这张图:Input image xEncoderquant_conv 1x1IBQ Quantizerlarge codebook = 131072post_quant_conv 1x1Vanilla DecoderReconstructed image x_hatDiscrete token indicesUsed later by Emu3.5 LLMOptional diffusion image decoderHigher-fidelity reconstructed image论文明确说其视觉词表大小为131,072,总词表为151,854 文本 token + 131,072 视觉 token = 282,926;同时 tokenizer 相比 Emu3 把同一张图所需 token 数减少到四分之一,但作者也明确承认:512×512 图像仍需要 1024 个 token。(arXiv)2. tokenizer 训练的完整流程2.1 数据准备阶段论文第 5.1 节把 tokenizer 训练数据分成三组:General:ImageNet、OpenImage、CC3M、CC12M,以及电影、游戏录像、vlog 等自有多域数据。Aesthetic:来自开源网站的高质量图像。Specific:专门针对文本与人脸的富集数据。文本侧使用 TextAtlas5M、PosterCraft、LAION 子集;人脸侧通过 RetinaNet 从 Midjourney、COYO-700M、DataComp、JourneyDB 等来源做筛取。(arXiv)同时,论文明确写了图像预处理与过滤:去掉分辨率低于512×512的图像;用图像质量打分器按 sharpness / noise / clarity 做筛选;用 LAION-AI aesthetic predictor 做审美过滤;用 watermark detector 去掉带水印样本。(arXiv)可以把数据流画成:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2463825.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!