[具身智能-465]:声学特征与梅尔频谱图
梅尔频谱图Mel-spectrogram本质上就是一种最主流、最重要的声学特征。我们可以这样理解它们的关系“声学特征”是一个广义的类别概念而“梅尔频谱图”是这个类别下目前应用最广泛的具体形式。为了让更清晰地理解这两个概念及其联系我们将从定义、区别和演变三个方面拆解。1. 什么是声学特征声学特征是对语音信号进行数学处理后提取出的一组数据旨在用更精简、更有效的方式代表声音的本质方便计算机模型进行处理。原始的语音波形数据量太大且包含很多冗余信息如背景噪声、说话人特有的音色等直接输入模型效率很低。因此我们需要提取“特征”。常见的声学特征包括时域特征如短时能量、过零率判断是清音还是浊音。频域特征如基频F0、频谱包络。倒谱域特征最著名的就是MFCC梅尔频率倒谱系数。时频域特征即梅尔频谱图。2. 什么是梅尔频谱图梅尔频谱图是一种特殊的频谱图它不仅展示了声音频率随时间的变化还引入了梅尔刻度Mel Scale。核心原理人耳对频率的感知是非线性的。我们对低频如 100Hz 到 500Hz的变化非常敏感能轻易分辨但对高频如 8000Hz 到 8500Hz的变化则相对迟钝。梅尔刻度为了模拟这种人耳特性梅尔频谱图将线性的频率轴Hz压缩映射到非线性的梅尔轴Mel上。公式通常近似为其中 $ f $ 是实际频率 $ m $ 是梅尔频率。视觉表现它是一个二维图像横轴是时间纵轴是梅尔频率颜色的深浅代表该频率在该时刻的能量强度。3. 梅尔频谱图与其他特征的对比特别是 MFCC在传统语音识别中MFCC曾是绝对的主流。梅尔频谱图和 MFCC 的计算过程前半部分是一样的区别在于最后一步表格特征类型计算流程特点与应用梅尔频谱图原始波形 →→ 傅里叶变换 →→梅尔滤波器组→→ 取对数保留更多信息。它是“原始”的声学特征维度较高如 80 维。在深度学习时代因为它保留了更多细节常被直接用作模型输入。MFCC原始波形 →→ 傅里叶变换 →→梅尔滤波器组→→ 取对数 →→离散余弦变换去除相关性高度压缩。离散余弦变换DCT进一步压缩了数据去除了频带间的相关性维度较低如 13 维。在传统 GMM-HMM 模型中非常流行。总结在深度学习如 CNN、RNN、Transformer成为主流的今天梅尔频谱图因其保留了比 MFCC 更丰富的原始声学信息且其二维图像结构非常适合卷积神经网络处理已经成为了许多端到端语音识别和合成系统的首选声学特征。所以当你处理语音任务时提取“梅尔频谱图”就是提取“声学特征”这一核心步骤的具体实施。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2556948.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!