TEMOS
TEMOSText-conditioned Motion Synthesis是2022年提出的一个文本驱动动作生成模型核心设计是文本编码器 动作编码器 动作解码器输入文本描述 → 生成对应的3D动作序列训练时用 KL 散度损失让文本和动作的隐空间分布对齐让两者都趋向正态分布方便从文本隐向量解码生成动作。一对匹配的数据文本描述 → 文本编码器 → z_text对应的真实动作序列 → 动作编码器 → z_motion任务一对齐 z_text 和 z_motion 尽量靠近 → 用 KL 散度损失 → 让两者的分布都趋向正态分布任务二文本重建 z_text → 解码器 → 重建动作序列 → 和真实动作序列尽量相似 → 用重建损失任务三动作重建 z_motion → 解码器 → 重建动作序列 → 和原始动作序列尽量相似 → 用重建损失”真实动作和原动作是同一个东西都是指采集的 Ground Truth 动作序列任务二和任务三共享同一个解码器z_text ─→┐├→ 同一个解码器 → 重建动作z_motion─→┘在TEMOS的推理/测试阶段输入只有文本模型的任务是将文本编码为 latent 表示再通过 decoder 生成对应的动作序列。但论文使用KL散度会把latent分布“高斯化 集中化”把原本数据的“个性差异”压缩掉压缩数据之间的差异而FID正是依赖这些差异来衡量质量因此会导致FID出现“虚假乐观”的失真结果。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2473770.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!