谷歌DeepMind与卡内基梅隆大学揭秘声音背后的脸
这项由谷歌DeepMind与卡内基梅隆大学联合开展的研究发表于2024年的计算机视觉与模式识别顶级会议CVPRIEEE/CVF Conference on Computer Vision and Pattern Recognition论文编号为arXiv:2404.01975有兴趣深入了解的读者可通过该编号查询完整论文。**研究概要一张脸藏在声音里**人说话的时候嘴巴的动作、面部的表情、头部的姿态……这一切都和声音紧密相连。但如果我们手里只有一段录音没有任何视频画面AI能不能仅凭这段声音就还原出说话人的面孔长什么样这听起来像科幻小说但谷歌DeepMind与卡内基梅隆大学的研究团队做到了——不是简单地猜测一张模糊的脸而是从声音信号中提取出人脸的三维几何结构、外观纹理乃至说话时的动态表情最终生成一段逼真的说话人视频。这项研究的名字叫做**VASAVideo-Aligned Speech Avatar**的前身框架更准确地说论文的核心方法被称为**仅凭音频重建说话人脸**。这项研究真正令人着迷的地方在于它打破了过去学术界的一个默认前提——要重建一个人的说话视频你至少得有这个人的照片或者视频片段作为参考。而这项工作彻底颠覆了这一假设。研究团队的系统只需要一段纯音频就能推断出说话人的身份外貌特征并合成出与声音精确匹配的动态人脸视频。这在整个学术领域属于首次系统性突破。这对普通人意味着什么以后的视频会议软件、有声读物播放器、语音助手甚至数字遗产保存技术都可能因此发生根本性的变化。你的声音或许真的藏着你的脸。---**一、声音和脸究竟有多深的联系**在深入了解这项研究的技术细节之前我们需要先理解一个最基础的问题声音和人脸之间到底存在什么样的关联人在说话的时候声音的产生依赖于口腔、咽腔、鼻腔等一系列物理结构。这些结构的形状在很大程度上也决定了一个人脸部的外观。换句话说一个人脸部骨骼的宽窄、下颌的形状、颧骨的高低既影响了他的声音共鸣特性也塑造了他面部的视觉轮廓。声音学领域早就有研究证明仅凭一个人的声音受过训练的人就能猜出他的大致年龄、性别甚至某些外貌特征——这种现象被称为声脸对应voice-face correspondence。但科学界对这种联系的利用长期停留在判断相关性的阶段也就是说研究者只是证明了两者有关系却没有真正把这种关系转化成可操作的技术工具。谷歌DeepMind与卡内基梅隆大学的团队在这里迈出了关键一步他们不仅要证明声音里有脸的信息还要把这些信息提取出来变成真实可见的画面。这种思路的转变有点像从我知道这块土地下面有矿到我真的把矿挖出来了之间的跨越。---**二、过去的方法卡在哪里**在这项研究出现之前学术界已经有不少说话人脸生成的工作但几乎无一例外地依赖一个前提你必须提供一张目标人物的参考图像系统才能据此生成对应的说话视频。这类方法的逻辑是给我一张你的照片再给我一段音频我来让照片里的你开口说话。这种方式有它的价值但局限性也很明显。它本质上是一个图像动画化的问题系统并没有真正理解声音和人脸之间的深层关系——它只是学会了如何让一张静态图片跟着声音动起来。至于这张图片里的人是谁、长什么样系统完全不关心它只负责让嘴动起来。还有另一类研究走了相反的路给定一张图片预测这个人说话的声音。或者给定一段声音预测说话人的某些面部特征数值。但这些都是感知层面的研究——系统学到的是抽象的关联而非能够直接生成高质量视频的能力。真正的难题在于如果什么图像参考都没有只有一段录音系统能否从零开始重建出一个人的外貌和动态表情这个问题在技术上极其困难因为声音到人脸的映射天然是一对多的——同样的一段语音理论上可以对应无数种可能的外貌。系统需要在这片茫茫可能性中找到最符合这段声音信号所暗示的那张脸。---**三、研究团队的核心思路把脸拆开再拼回来**面对这个艰难的问题研究团队采用了一个非常精妙的策略把人脸的信息拆解成几个相对独立的维度分别建立声音与这些维度之间的映射关系最后再把所有维度的输出整合在一起生成完整的说话人视频。这种分解策略有点像一位雕塑家工作的方式。他不会一上来就直接捏出一张完整的脸而是先确定头颅的整体形状和比例再雕刻面部的主要骨架然后添加皮肤纹理和细节最后再让雕塑动起来——赋予它表情和动态。研究团队的方法正是遵循了类似的层次化逻辑。具体来说整个系统的工作流程可以分成几个紧密衔接的阶段。第一阶段系统从输入的音频中提取身份相关的声学特征——也就是那些能够反映说话人稳定生理特征的声音信息比如音色、共鸣模式等。这些特征不随说话内容的变化而变化是一个人声音的身份证。第二阶段系统利用这些身份声学特征推断出说话人脸部的三维几何形状。这里用到的是一种被称为**三维形变模型**3D Morphable Model简称3DMM的技术工具。可以把3DMM理解成一套人脸乐高积木——通过调整不同积木块的形状和位置可以拼出无数种不同的人脸。系统的任务就是根据声音信息决定每一块积木应该是什么形状。第三阶段在确定了人脸的三维几何结构之后系统还需要推断出脸部的外观纹理——也就是皮肤颜色、光泽、以及整体视觉风格。这一步同样由声音特征驱动系统学习的是声音与视觉外观之间的统计关联规律。第四阶段系统根据音频中的语音内容比如哪些音节需要张嘴、哪些需要闭嘴生成与语音精确同步的动态表情序列包括嘴部动作、眼部运动、头部姿态等。这一步可以理解为给已经雕刻好的静态脸注入生命力让它随着声音的节奏动起来。最后将三维几何、外观纹理和动态表情综合在一起通过一个图像渲染模块输出最终的视频帧序列形成完整的说话人视频。---**四、技术核心让神经网络学会听声辨脸**上面描述的工作流程听起来很清晰但每一个环节背后都有复杂的神经网络在支撑。研究团队设计的整体架构是一个端到端可训练的深度学习系统意思是说这个系统可以通过大量的声音-视频配对数据进行训练让所有模块协同优化最终达到最好的效果。系统训练时使用的数据是大量真实的说话人视频每一段视频都配有对应的音频轨道。系统从这些数据中自动学习声音和人脸之间的统计规律而不需要人类手动标注这段声音对应这种脸型。这种自监督式的学习方式使得系统能够从海量数据中提炼出人类难以用语言描述的复杂关联。声音特征的提取部分研究团队使用了专门针对说话人身份识别任务预训练的声学编码器。这类编码器经过了数千小时的语音数据训练能够把一段音频压缩成一个紧凑的声音身份向量——类似于把一个人的声音特征浓缩成一串数字密码。这串密码里包含了说话人的生理和物理特性信息但不包含他说了什么内容。把这串声音密码转化为人脸三维形状参数的过程由一个专门的解码网络完成。这个网络学习的是从抽象的声音向量到具体的三维形变模型参数之间的映射函数。由于声音到人脸的映射本质上存在不确定性研究团队还引入了概率建模的手段让系统不是只输出一个确定的脸而是输出一个合理的人脸分布从中采样得到最终结果。动态表情的生成则依赖于另一套独立的模块这个模块的输入是音频的内容特征而非身份特征输出是随时间变化的面部运动参数序列。这部分的技术难点在于面部运动不仅要与语音内容精确同步还要表现出自然的、符合人类行为规律的头部姿态变化和眼神动作而不是一张木头脸机械地动嘴。---**五、训练数据和实验设计怎么证明系统真的学到了东西**任何机器学习系统光说能做到是不够的还必须通过严格的实验来验证。研究团队在这方面做了非常细致的工作。训练数据来自多个公开的大规模说话人视频数据集覆盖了数千名不同身份的说话人包括不同性别、年龄、种族和说话风格。这种多样性对于系统学习声音和脸的普遍规律至关重要——如果训练数据只有某一类人系统就只能对那一类人有效。为了验证系统的效果研究团队设计了两类核心实验。第一类是重建质量评估对于测试集中的说话人系统只拿到他们的音频然后生成视频再把生成的视频和真实视频进行比较看看生成的人脸在外观和动作上与真实情况有多接近。这里使用了多种量化指标包括衡量图像相似度的SSIM结构相似性指数、衡量人脸身份一致性的ArcFace特征距离以及衡量嘴部动作和语音同步程度的LMD唇部运动距离等。第二类是跨模态身份一致性评估系统生成的视频中的人脸是否真的和输入音频的说话人属于同一个人这不是看视觉细节有多像而是看系统推断出的身份特征是否与真实身份一致。研究团队用独立的人脸识别系统对生成视频进行身份验证评估这一维度的准确性。此外研究团队还进行了用户研究——让真实的人类受试者观看生成视频和真实视频评估哪个更自然、更像真人以及生成的人脸和输入音频在感知上是否匹配。这种主观评估往往能捕捉到量化指标难以反映的视觉质量问题。---**六、实验结果系统的表现究竟如何**实验结果显示这套系统在多个维度上都取得了相当可观的效果尤其是在仅凭音频这一极端困难的约束条件下。在人脸外观生成方面系统生成的人脸在视觉上具有较高的真实感能够反映出说话人的大致年龄、性别和种族特征。虽然生成的人脸不能完全精确地复现某个特定个体的独特外貌细节这在理论上也是几乎不可能的但在统计意义上生成结果与真实人脸的分布高度吻合。在唇语同步方面系统生成的视频展示出与输入音频高度一致的嘴部运动LMD指标明显优于多个对比基线方法。这意味着生成的视频中人物说话时的嘴型变化与实际的语音内容是对得上的而不是随机或错位的运动。在头部姿态和自然度方面系统生成的视频中的头部运动呈现出符合人类自然说话习惯的节律性变化而不是僵硬地保持固定姿势。用户研究中受试者对这些视频的自然度评分明显高于纯粹基于规则生成的对比系统。研究团队还做了一项特别有意思的消融实验ablation study——也就是把系统中的某些关键模块逐一拆掉看看整体性能如何变化以此验证每个模块的实际贡献。结果表明三维形变模型的引入、概率建模机制的加入以及多阶段训练策略都对最终效果有显著的正向作用缺少任何一个系统性能都会出现明显下滑。---**七、系统的边界和局限哪些地方还做不好**任何诚实的科学研究都必须坦率地面对自己的局限。研究团队对此也没有回避。最显著的局限来自任务本身的内在不确定性。声音到人脸的映射从根本上就不是一一对应的关系。同样音色的声音可能对应许多种不同的外貌。这意味着系统生成的人脸只能在统计意义上合理但不能保证与特定说话人的真实外貌完全吻合。如果你把一个真实人物的录音输入系统生成的脸可能在大致特征上和真人相符但不会是一张能被识别为这就是某某某的精确人脸。第二个局限与极端情况有关。系统在训练数据中见过的说话风格、口音、语速表现较好但面对训练数据覆盖不足的场景——比如非常罕见的口音、极端情绪下的说话方式、或者带有大量背景噪音的录音——系统的鲁棒性会有所下降。第三个局限是计算成本。生成高质量的三维人脸并渲染成视频目前的计算代价仍然不低在实时应用场景中还存在一定的技术瓶颈。不过随着硬件性能的持续提升和模型压缩技术的发展这个问题预计会逐步缓解。研究团队还特别提到了这项技术潜在的伦理风险。一个能够凭声音生成人脸视频的系统在某种程度上也可以被用于生成虚假内容或深度伪造视频。对此研究团队强调任何相关技术的部署都应当配套严格的滥用防护机制并呼吁学术界和产业界共同建立负责任的使用规范。---**八、这项研究在更大图景中的位置**把这项研究放在整个AI和计算机视觉领域的大图景中来看它的意义远不止于生成一段视频那么简单。从技术层面看这项工作建立了一个从音频到三维人脸再到动态视频的完整跨模态生成框架。它的架构设计思路对于其他类似的从一种感知模态重建另一种感知模态的任务具有重要的参考价值。比如从文字生成图像、从触觉信号重建形状等领域都可以从这套框架中汲取方法论上的灵感。从应用层面看这项研究打开了几个全新的应用场景。在个性化虚拟助手领域以后的语音助手可能不需要人工设计一个虚拟形象而是直接根据用户的声音生成一个与之匹配的数字人脸。在数字遗产和记忆保存领域仅凭一段过世亲人的录音就可能重建出他说话时的样子。在影视和游戏制作领域配音演员的声音可以直接驱动角色的脸部生成大幅降低制作成本。在医疗辅助领域这项技术也可能被用于帮助分析患者的声音特征与面部运动之间的关联辅助某些神经肌肉疾病的早期诊断。从更广泛的科学意义看这项研究提供了一种全新的工具来探索和验证声脸对应这一生物学现象背后的深层机制。AI系统学到的声音-人脸映射规律本身就是一个值得深入分析的科学宝库它可能揭示出人类研究者此前从未系统描述过的声音与面部结构之间的细粒度关联。---**九、结语声音里藏着的不只是情绪**说到底这项研究告诉我们一件很有哲学意味的事我们以为声音只是声音只是空气的振动只是传递语言信息的载体。但实际上声音里藏着说话人的生理结构藏着他们的面部骨骼、皮肤和肌肉藏着他们开口说话时脸上发生的每一个细微变化。谷歌DeepMind与卡内基梅隆大学的研究者们用一套精心设计的AI系统把这些藏在声音里的信息给读了出来并且把它们转化成了肉眼可见的图像。这不是魔法是数学和统计学在海量数据上积累出来的力量。当然这套系统还远不完美。它生成的脸更像是根据声音推断出的最可能的脸而不是某个人真实外貌的精确复现。但这已经是一个历史性的起点——在此之前没有任何系统能够在没有任何视觉参考的条件下仅凭声音完成这样的任务。对于喜欢思考技术与伦理交叉地带的读者来说这项研究也值得引发一些更深的追问当AI能够从声音还原出人脸我们的声音还算是私密信息吗当数字技术可以重建逝去者的面容我们应该如何界定记忆和真实的边界这些问题没有现成的答案但正是这样的追问推动着技术与人文的对话继续向前。有兴趣深入了解完整研究细节的读者可以通过arXiv编号2404.01975查询原始论文谷歌DeepMind和卡内基梅隆大学的研究团队在论文中提供了远比这里更翔实的技术推导和实验数据。---**QA**Q1仅凭音频重建说话人视频的技术能准确还原出特定真实人物的长相吗A目前还做不到精确还原特定个体的真实外貌。该系统生成的人脸是根据声音信号在统计意义上最合理的人脸——能反映说话人大致的年龄、性别、种族等特征但不能精确复现某个具体人物独特的外貌细节。声音到人脸的映射本身就是一对多的关系理论上同一段声音可以对应多种不同的脸系统只是在其中选出最符合统计规律的那一种。Q2三维形变模型3DMM在这个系统里起什么作用A三维形变模型是一套参数化的人脸表示工具可以理解为一套人脸模板积木。通过调整模型中不同参数的数值可以生成各种不同形状和比例的人脸三维结构。在这项研究中系统从声音特征中推断出这些参数的取值进而确定说话人脸部的大致三维几何形状为后续的纹理生成和动态渲染提供基础。Q3这项声音生成人脸视频的技术会不会被用来制作假视频A这确实是研究团队明确提出的伦理风险。一个能从声音生成逼真人脸视频的系统在技术上存在被滥用于深度伪造的可能性。研究团队在论文中明确呼吁任何相关技术的实际部署都应配套严格的滥用防护机制并强调学术界和产业界需要共同建立负责任的使用规范而非任由技术自由扩散。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2456735.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!