基于Wan 3D Causal VAE（Show-o2）的模型，重新完整地分析 10分钟的视频对应多少 vison token

news2026/4/4 18:19:32

可以。这次我按Show-o2 官方 432×432 配置和Wan 3D Causal VAE 的公开时间压缩规则，把10B token 且全部都是 vision token的情况重新完整算一遍。下面的“大小”我统一按未压缩 RGB 原始数据量来算；如果你问的是实际 JPG / PNG / MP4 落盘大小，那会随压缩格式、码率和内容复杂度变化很大，不能有唯一值。Show-o2 在 README 中说明它工作在text token + 3D Causal VAE space上，432 配置里num_t2i_image_tokens=729，视频理解配置里num_video_tokens=3645，对应的空间 latent 高宽都是27×27。(GitHub)1）先把基准说清楚图片基准Show-o2 的 432×432 配置里，一张图对应：N img-token = 729 N_{\text{img-token}} = 729Nimg-token=729同时一张 432×432 RGB 图片的原始大小是：432 × 432 × 3 = 559,872 bytes 432 \times 432 \times 3 = 559{,}872 \text{ bytes}432×432×3=559,872bytes所以每个 image token 对应的原始数据量是：559,872 729 = 768 bytes/token \frac{559{,}872}{729}=768 \text{ bytes/token}729559,872=768bytes/token这些数可直接由官方 config 和计算得到。(GitHub)视频基准Show-o2 的 released video-understanding config 里写的是：N video-token = 3645 N_{\text{video-token}} = 3645Nvideo-token=3645而 Wan 官方代码说明视频帧数frame_numF FF应为4 n + 1 4n+14n+1，其时间 latent 长度为：T latent = F − 1 4 + 1 T_{\text{latent}}=\frac{F-1}{4}+1Tlatent=

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2473901.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！