HUMAN TOMATO: T EXT - ALIGNED WHOLE-BODY MOTION GENERATION(2023.10.19)

news2025/7/21 5:10:41


文章目录

  • Abstract
  • Introduction
    • 现有工作的不足
    • 为了解决上述问题
    • 主要贡献
  • Methodology(方法论)
    • PROBLEM FORMULATION(问题公式化)
    • LEARNING DISCRETE WHOLE - BODY REPRESENTATIONS(学习离散的全身表征)
      • Vanilla Motion VQ-VAE
    • Holistic Hierarchical VQ-VAE
    • HIERARCHICAL WHOLE - BODY MOTION GENERATION(分层的全身运动生成)
      • Facial conditional VAE
    • PRE-TRAINED TEXT-MOTION RETRIEVAL MODEL AS A PRIOR(作为先验的预训练文本运动检索模型)
    • MODEL TRAINING AND INFERENCE(模型训练和推理)
      • Model Training![](https://img-blog.csdnimg.cn/56e2d6215f6144b1b1f9552d7d9c0ecc.png)
      • Model Inference
  • Experiments
  • Conclusion

原文链接
源代码

Abstract

这项工作的目标是一种新的文本驱动的全身运动生成任务,该任务以给定的文本描述为输入,旨在同时生成高质量、多元和连贯的面部表情、手势和身体运动。以往关于文本驱动运动生成任务的工作主要存在两个局限性:忽略了细粒度手和面部控制在生动的全身运动生成中的关键作用,缺乏文本和运动之间的良好对齐。为了解决这一具有挑战性的任务,我们的解决方案包括两个关键设计:(1)一个整体分层VQ- VAE(又名h2 VQ)和一个分层GPT,用于细粒度的身体和手部运动重建和生成两个结构化代码本;(2)预训练文本-运动-对齐模型,帮助生成的运动与输入文本描述明确对齐

Introduction

近年来,在游戏、电影、动画和机器人等许多场景中,对生成高质量3D人体运动的巨大需求呈爆炸式增长。为了减少动画创作的费力工作,最近的研究尝试以自然交互的方式生成带有文本描述的人体动作,并在相关研究领域取得了快速进展

现有工作的不足

然而,从现有的工作中产生的运动仍然不能满足实际应用的需要。这个问题主要是由于两个方面:
首先,现有的文本驱动运动生成模型只能生成单体运动,而不能生成全身运动,具有很强的表现力,但也更具挑战性
其次,生成的动作与文本描述缺乏语义一致性

为了解决上述问题

我们提出了一个新的文本对齐的整体运动生成工作框架(HumanTOMATO),该框架包括两个关键设计:
首先,提出了一种身体和手部运动的整体分层离散建模策略,以生动地重建和生成全身运动
在第一阶段,我们提出了一个整体分层VQ- VAE(又名h2 VQ),将运动分别压缩为身体和手的两级离散代码
在第二阶段,我们提出了一个分层GPT以自回归的方式预测身体和手的层次离散码
其次,首次引入预训练文本-运动对齐模型,增强生成运动的文本对齐

提出的HumanTOMATO可以生成与文本对齐的全身动作,面部、手部和身体的动作生动和谐。我们展示了两个生成的定性结果
通过这些关键设计,与之前的文本驱动运动生成作品相比,HumanTOMATO可以生成语义上与文本描述一致的全身运动,如图1所示

主要贡献

1.据我们所知,我们首次提出了具有挑战性的文本驱动全身运动生成任务,并设计了一个模型(HumanTOMATO)来生成与文本很好地对齐的生动的全身运动
2.为了解决具有挑战性的全身运动生成问题,我们引入了用于细粒度身体和手部运动重建的h2 VQ。因此,我们开发了一种结合面部cVAE的分层gpt来产生全身运动
3.为了增强文本和运动之间的一致性和对齐,我们通过对比目标预训练文本-运动对齐编码器,并引入序列级语义监督来帮助运动-文本对齐
4.我们提出了两个新的标准(TMR-R-PrecisionTMR-Matching-score),它们对评估文本-运动对齐更加准确和具有挑战性

Methodology(方法论)

PROBLEM FORMULATION(问题公式化)

我们澄清了符号,建立了文本驱动全身运动生成的新研究问题。给出一个人类动作的文字描述,比如“这个人正在愉快地弹着尤克里里。”,则模型应生成一个与文本描述对齐的生动的全身运动m = [m1, m2,···,m L]∈R L×d,其中L和d分别表示该运动在每一帧中的帧数和尺寸。由于全身运动涉及手、身体和面部运动,我们也可以将m分别分解为{mH,mB,mF},其中mH∈R L×dh,m B∈R L×db,m F∈R L×d F,d = d H + d B + d F。在数学上,我们将文本驱动的全身运动生成表述如下:

式中Θ为模型参数,P Θ(·)为运动分布

在2.2节中,我们首先介绍h2 VQ来学习身体和手的细粒度离散运动代码。然后,我们在第2.3节中提出了分层gpt模块,该模块旨在预测全身运动的文本对齐离散运动代码。由于面部表情通常对文本描述具有确定性,因此我们采用Petrovich et al.(2022)中描述的方法来训练面部条件VAE,从而直接生成详细的表情。对于全身运动的生成,我们整合了身体、手和脸的运动来产生最终的输出。值得注意的是,在介绍我们的hierarchal - gpt时,我们还在第2.4节中探讨了文本到全身运动检索模型如何明确地有利于文本-运动对齐

LEARNING DISCRETE WHOLE - BODY REPRESENTATIONS(学习离散的全身表征)

Vanilla Motion VQ-VAE

运动VQ-VAE旨在以编码解码的方式学习人类运动的离散表示。具体来说,VQ-VAE通过使用自编码器恢复运动,并学习一个码本C = {e k} k k=1,其中k表示码本大小,e(k)表示码本中嵌入的第k个表示。给定一个矢量z和量化器Q(·;C),量化后的矢量应为码本C中选取的能使重构误差最小的元素,为
在vanilla VQ-VAE中,z = Enc(m)表示从运动编码器Enc(·)中提取的潜在代码。因此VQ-VAE可以通过

其中,α为超参数,sg(·)为停止梯度运算,Dec(·)为运动解码器

Holistic Hierarchical VQ-VAE

受此启发(dsamossez等人,2022),我们提出了一种新的整体层次矢量量化方案,简称h2 VQ,用于运动生成领域。与RVQ不同,我们在h2 VQ建模之前结合了运动学结构,使其能够以极低的比特率学习细粒度全身运动的紧凑表示。鉴于身体和手部运动在幅度和频率上的明显差异,我们进一步设计了两个独立的编码器和码本来学习身体和手部运动的离散表示
(a)整体层次矢量量化(h2vq),将细粒度的体手运动压缩成两个具有层次结构关系的离散码本
(b)层次化gpt,使用运动感知文本嵌入作为输入,层次化地生成手-体运动
©面部文本-条件VAE (cVAE)生成相应的面部动作。身体、手和面部运动的输出组成了一个生动的、与文本对齐的全身运动

HIERARCHICAL WHOLE - BODY MOTION GENERATION(分层的全身运动生成)

为了更好地模拟手-体运动的自然一致性,我们设计了一个分层离散代码预测模块,名为hierarchy - gpt,如图2(b)所示,用于生成手-体运动

Facial conditional VAE

在TEMOS (Petrovich et al., 2022)的激励下,我们的面部cVAE如图2©所示,由一个面部编码器、一个文本编码器和一个面部解码器组成,并对面部重建损失、KL损失和交叉模态损失进行了优化。在推理阶段,给定文本描述,文本编码器和运动解码器将根据给定文本中的表达和运动长度产生不同的面部运动

PRE-TRAINED TEXT-MOTION RETRIEVAL MODEL AS A PRIOR(作为先验的预训练文本运动检索模型)

在现有的预训练模型中,由于文本和运动的内容表示粒度不同,文本的表示与相应的运动之间往往存在明显的语义差距
如图3(a)和图3(b)所示,我们可以简单地将它们分为两类
第一种是通过明确对齐的图像-文本先验进行监督
第二种是隐式图像-文本对齐先验学习

因此,有必要引入一种文本-运动对齐的预训练方法,以确保训练后的文本编码器能够输出更有利于完成文本-运动生成任务的文本嵌入,而不是从图像-文本对齐模型中进行调整
我们通过一个名为TMR的检索目标,以对比的方式对齐文本和运动(Radford等人,2021),预训练了一个运动编码器和一个文本编码器。与以往工作不同, TMR的文本嵌入比CLIP或llm的嵌入更优先发挥运动感知语言的作用,这有利于生成文本对齐的运动。在这项工作中,TMR是由我们自己重新训练的。

基于预训练的TMR,我们从两个方面探索增强给定文本与生成运动之间的对齐,如图3©所示
第一种是用TMR文本编码器替换CLIP文本编码器
二是引入基于TMR的运动-文本对齐监督

MODEL TRAINING AND INFERENCE(模型训练和推理)

Model Training

此外,还利用EMA和Code ReSet技术对码本进行了优化
在第二阶段,我们同时训练交叉熵损失lce和文本运动对齐损失Lalign,总体上为lce + ηLalign

Model Inference

在推理阶段,我们首先从TMR中提取文本嵌入。然后,我们将TMR文本嵌入作为初始令牌输入到hierarchistic - gpt中,然后以自动回归的方式预测离散的身体和手令牌。身体和手标记被输入到身体-手解码器中,以生成与文本对齐的人体动作。最终,结合面部cVAE产生的面部动作,输出综合的全身动作

Experiments

在本节中,我们在全身和仅身体运动生成基准上评估拟议的HumanTOMATO模型。此外,我们还将介绍我们的方法的一些技术设计。我们构建实验来回答以下四个研究问题(RQs):
RQ1:我们提出的HumanTOMATO模型在全身运动生成任务上是否优于现有的生成方法?
RQ2:全身运动的分层离散表示如何帮助提高运动生成的质量?
RQ3:预训练的文本-动作检索模型如何帮助生成的动作和文本之间的对齐?
RQ4:为什么在生成的运动和给定文本之间对齐的拟议评估指标更准确和更具挑战性?

与基线的定性比较。HumanTOMATO支持面部运动生成,在手部运动生成和文本运动对齐方面优于MLD和T2M-GPT

在motion - x数据集上运动生成的主要结果

不同量化方法在motion - x、GRAB和HumanML3D上的运动重建误差(MPJPE,单位mm)比较我们的h2 VQ显示出显著的改进

基于预训练的文本-运动对齐模型在motion- x上的运动生成。TMR嵌入和文本运动对齐监督都有助于生成文本对齐的运动

Conclusion

本文研究了文本驱动的全身运动生成问题。我们仔细地阐明了在生成生动的文本对齐的全身运动、运动重建和文本-运动对齐方面存在的挑战。为了应对这些挑战,提出了两项主要的技术贡献:(1)基于整体分层VQ- vae (h2 - VQ)和分层gpt的精细身体和手部运动重建与生成;(2)基于预训练的文本-运动对齐模型,帮助生成文本对齐运动。我们在Motion-X和HumanML3D数据集上进行了全面的实验,验证了所提出解决方案的优越性和有效性。实验结果表明,HumanTOMATO可以产生生动的文本对齐全身运动

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1157234.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

视频平台跨网级联视频压缩解决方案

一、 简介 视频监控领域对带宽有着较大的需求,这是因为视频流需要实时占用网络带宽资源。视频监控的传输带宽是组网结构的基础保障,关系到视频监控的稳定性、可靠性和可拓展性等因素。例如,720P的视频格式每路摄像头的比特率为2Mbps&#xff…

杂记 | 使用numpy计算欧氏距离和马氏距离示例

文章目录 一、欧氏距离与马氏距离二、使用numpy计算欧氏距离三、使用numpy计算马氏距离 一、欧氏距离与马氏距离 这里引用GPT4的回答: 二、使用numpy计算欧氏距离 import numpy as npp1 [1, 2, 3] p2 [4, 5, 6] point1 np.array(p1) point2 np.array(p2)euc…

金山文档轻维表做数据库结合油猴脚本检索

脚本里面新建查询脚本(记录脚本webhook和脚本令牌) const records Application.Record.GetRecords({ SheetId: 1 }) console.log(records.records) return {data: records.records, } 油猴脚本 // UserScript // name 油猴辅助器 // namespa…

【备忘录】SpringBoot+ dynamic-datasource配置自定义多数据源

一、 业务场景解释 由于公司业务需要开发设计一款文件读取导入工具,导入的配置和目标数据库并不一定在同一个数据库地址,故需要使用到自定义数据源,并且支持数据源切换 大致场景如下: 二、工具选择 鉴于市面上有很多工具&#…

Leetcode刷题详解——计算布尔二叉树的值

1. 题目链接:2331. 计算布尔二叉树的值 2. 题目描述: 给你一棵 完整二叉树 的根,这棵树有以下特征: 叶子节点 要么值为 0 要么值为 1 ,其中 0 表示 False ,1 表示 True 。非叶子节点 要么值为 2 要么值为 …

【进程】利用 Linux 下的 /proc/pid/ 的内容学习进程

1. 进程号 在计算机中,每一个进程都有一个进程号,进程号类似于一个索引,操作系统就是通过这个进程号快速地找到进程。在 linux 使用 ps -aux 查看进程,可以看到进程号pid: rootswd-Lenovo-G40-80:/proc/4234# ps -au…

建站起步-如何选择域名

如何选择合适的域名 如何选择合适的域名 我们所看到的网站是由域名加空间服务器加网站程序组成的,往往我们用户最先看到的就是网站的域名,因为网站内容加载往往需要时间,所以最先展示的就是我们网站的域名了。域名就跟我们手机号一样具有唯一性,当我们没有及时续费时,就…

LibTorch实战三:C++版本YOLOV5.4的部署

目录 一、环境配置 二、.torchscript.pt版本模型导出 三、C版本yolov5.4实现 四、问题记录 4.1、注释 detector.h中,注释如下头文件 4.2、错误: “std”: 不明确的符号 4.3、建议常被debug版本libtorch 4.4、问题:编译成功后&#xff…

信息系统项目管理师教程 第四版【第10章-项目进度管理-思维导图】

信息系统项目管理师教程 第四版【第10章-项目进度管理-思维导图】 课本里章节里所有蓝色字体的思维导图

Ardupilot开源飞控之Wiki修改操作

Ardupilot开源飞控之Wiki修改操作 1. 源由2. 页面编辑修改2.1 Step 1: 申请Github账号2.2 Step 2: 选择修改页面2.3 Step 3: 修改页面内容2.4 Step 4: 提交修改2.5 Step 5: 新增PR 3. 增删页面修改3.1 Step 1: 克隆本地的Ardupilot Wiki3.2 Step 2: 搭建本地验证环境3.3 Step 3…

【Android知识笔记】换肤专题

换肤其实也属于插件化专题的一个子话题,之所以单独拿出来,是因为它的处理方式比较特殊,相比插件化而言较简单一些。 系统内置的换肤功能支持 - Theme Android 系统中如果想修改应用的背景色,最简单的就是利用以下Theme相关的属性: 使用这些内置的属性可以实现一定程度上…

SAP-MM-查找物料修改记录

业务场景: 仓管员修改了物料描述,研发部想要查哪些被修改了, 底表:CDHDR、CHPOS 首先在底表CDHDR中查找用户名的操作记录, 输入修改代码、时间范围、用户名 执行,生产数据 导出数据,复制文档编号&#…

身份证OCR:变革的触手,掀起识别的革命

身份证OCR识别技术(Optical Character Recognition)是一项将身份证上的文字信息转化为可编辑、搜索、存储、分享的电子文本的技术。它的发展与信息技术和身份认证需求的不断演进密切相关。以下将简要介绍身份证OCR识别技术的历史以及兴起背景。 OCR识别…

Windows个性化颜色睡眠后经常改变

问题再现 我把系统颜色换成了一种红色,结果每次再打开电脑又变回去了(绿色); 原因是因为wallpaper engine在捣蛋 需要禁用修改windows配色这一块选项; 完事!原来是wallpaper engine的问题;

什么是Webpack的loader和plugin?它们的作用是什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

这个电力问题难倒90%的人,但我只用一招就搞定!

随着现代社会对电力需求的不断增加,配电系统的可靠性和安全性变得至关重要。为了确保电力系统的稳定运行,配电柜监控系统应运而生。 配电柜监控系统通过实时监测和控制电力分配,提供了对电力系统状态的详细洞察,以帮助运维人员及时…

不同阶段品牌的种草策略是什么,小红书打法分析!

不同阶段的品牌在制定营销目标,规划营销策略,执行营销方案时的操作,也有所不同。所以,今天我们以品牌的发展阶段为基准,与大家探讨一下,不同阶段品牌的种草策略是什么,小红书打法分析&#xff0…

[UDS] --- TesterPresent 0x3E

1 0x3E功能描述 这个服务的目的是确保诊断服务或者之前激活的通信还处在激活的状态,可以保持当前的非默认(Default Session)会话,通过周期地发送请求帧来阻止自动跳转回默认(Default Session)会话。 2 0x…

写博客的模板

本人详解 作者:王文峰,参加过 CSDN 2020年度博客之星,《Java王大师王天师》作者 公众号:山峯草堂,非技术多篇文章,专注于天道酬勤的 Java 开发问题、中国国学、传统文化和代码爱好者的程序人生,…

Scan2BIM实战:从3D扫描到BIM模型生成

最近,我被问过很多次这个问题,所以我想我会尽力传达答案。 我应该指出,以下是概述,而不是非常详细的分步过程。 有很多因素会决定这项工作; 详细程度、扫描设备、点云配准软件和 CAD 软件等。 由于不知道你可能拥有或感…