Emu3.5 视觉 tokenizer 及其 decoder 的训练过程

news2026/3/30 4:49:58

下面我把Emu3.5 视觉 tokenizer 及其 decoder 的训练完整过程，按照“论文明确写到的部分”“公开代码能对上的部分”“需要用开源近似路线复现的部分”三层重新整理。先给结论：结论：Emu3.5 的视觉部分其实不是“一次性训练完一个模块”，而是至少分成两条链路：第一条是vanilla vision tokenizer的训练：卷积式 encoder/decoder + IBQ 量化器 + 大码本 + 重建/感知/GAN/熵/语义蒸馏联合优化；第二条是optional diffusion image decoder的训练：以已经量化好的视觉 token 作为条件，再训练一个基于 flow matching 的高保真图像解码器，并额外做 LoRA distillation 来把采样步数从 50 压到 4。论文还单独扩展了视频 decoder，但那已经超出“图像 tokenizer 本体”的最核心训练链。(arXiv)1. Emu3.5 的 tokenizer 到底训练了什么从论文第 2.3 节、HF 配置、以及公开的IBQ/quantize代码看，Emu3.5 的视觉 tokenizer 本体由这几部分组成：卷积式Encoderquant_conv：把 encoder latent 映射到量化空间IBQ / IndexPropagationQuantizepost_quant_conv：把量化特征映回 decoder 空间卷积式Decoder在公开实现里，IBQ类明确包含encoder、decoder、quantize、quant_conv和post_quant_conv，其前向过程就是encode - quantize - decode。HF 配置则给出了关键结构参数：codebook_size=131072、embed_dim=256、z_channels=256、ch=256、ch_mult=[1,1,2,2,4]、num_res_blocks=4、attn_resolutions=[16]。(GitHub)可以把它概括成下面这张图：Input image xEncoderquant_conv 1x1IBQ Quantizerlarge codebook = 131072post_quant_conv 1x1Vanilla DecoderReconstructed image x_hatDiscrete token indicesUsed later by Emu3.5 LLMOptional diffusion image decoderHigher-fidelity reconstructed image论文明确说其视觉词表大小为131,072，总词表为151,854 文本 token + 131,072 视觉 token = 282,926；同时 tokenizer 相比 Emu3 把同一张图所需 token 数减少到四分之一，但作者也明确承认：512×512 图像仍需要 1024 个 token。(arXiv)2. tokenizer 训练的完整流程2.1 数据准备阶段论文第 5.1 节把 tokenizer 训练数据分成三组：General：ImageNet、OpenImage、CC3M、CC12M，以及电影、游戏录像、vlog 等自有多域数据。Aesthetic：来自开源网站的高质量图像。Specific：专门针对文本与人脸的富集数据。文本侧使用 TextAtlas5M、PosterCraft、LAION 子集；人脸侧通过 RetinaNet 从 Midjourney、COYO-700M、DataComp、JourneyDB 等来源做筛取。(arXiv)同时，论文明确写了图像预处理与过滤：去掉分辨率低于512×512的图像；用图像质量打分器按 sharpness / noise / clarity 做筛选；用 LAION-AI aesthetic predictor 做审美过滤；用 watermark detector 去掉带水印样本。(arXiv)可以把数据流画成：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2463825.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！