基于Wan 3D Causal VAE(Show-o2)的模型,重新完整地分析 10分钟的视频 对应多少 vison token
可以。这次我按Show-o2 官方 432×432 配置和Wan 3D Causal VAE 的公开时间压缩规则,把10B token 且全部都是 vision token的情况重新完整算一遍。下面的“大小”我统一按未压缩 RGB 原始数据量来算;如果你问的是实际 JPG / PNG / MP4 落盘大小,那会随压缩格式、码率和内容复杂度变化很大,不能有唯一值。Show-o2 在 README 中说明它工作在text token + 3D Causal VAE space上,432 配置里num_t2i_image_tokens=729,视频理解配置里num_video_tokens=3645,对应的空间 latent 高宽都是27×27。(GitHub)1)先把基准说清楚图片基准Show-o2 的 432×432 配置里,一张图对应:N img-token = 729 N_{\text{img-token}} = 729Nimg-token=729同时一张 432×432 RGB 图片的原始大小是:432 × 432 × 3 = 559,872 bytes 432 \times 432 \times 3 = 559{,}872 \text{ bytes}432×432×3=559,872bytes所以每个 image token 对应的原始数据量是:559,872 729 = 768 bytes/token \frac{559{,}872}{729}=768 \text{ bytes/token}729559,872=768bytes/token这些数可直接由官方 config 和计算得到。(GitHub)视频基准Show-o2 的 released video-understanding config 里写的是:N video-token = 3645 N_{\text{video-token}} = 3645Nvideo-token=3645而 Wan 官方代码说明视频帧数frame_numF FF应为4 n + 1 4n+14n+1,其时间 latent 长度为:T latent = F − 1 4 + 1 T_{\text{latent}}=\frac{F-1}{4}+1Tlatent=
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2473901.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!