语音识别中的特征提取是理解语音内容的关键步骤,它将原始语音信号转换为有助于识别语言结构的有用信息,同时丢弃背景噪声、情绪等无关因素。语音产生涉及肺部气流、声门开闭、声道(如舌头和牙齿)的调节,最终形成不同形状的声道,产生不同的音素(phoneme),每种形状对应着不同的滤波器,形成独特的语音信号。
MFCC(梅尔频率倒谱系数)特征提取是一个具体的过程,包含多个步骤。首先,语音信号被分成20-40毫秒的帧,通常选择25毫秒长度,以确保每个帧足够稳定,同时包含足够的信息。接下来,计算每帧的功率谱,借鉴人耳蜗的原理,通过周期图估计功率谱,以捕捉不同频率的振动信息。随后,通过梅尔滤波器组对功率谱进行处理,将频率范围划分为不同桶(bin),累加桶内的能量,以过滤无用信息,如高频信号的细微区分度,更贴近人耳对声音的感知。对滤波器组的能量取对数,采用log操作,更好地匹配人类的听觉感知,同时简化后续的模型处理。最后,进行DCT变换,去除不同梅尔滤波器的互相关性,简化特征表示,便于后续模型的训练。
梅尔尺度(Mel Scale)是一个从人类听觉感知频率(Pitch)到实际频率的映射方法。它考虑到人耳对低频和高频的分辨率差异,通过公式转换频率,使特征更符合人类听觉特性。梅尔滤波器组的参数计算包括选择频率范围、划分滤波器、将Mel频率转换为实际频率,并将这些频率对应到FFT的bin中,最终形成包含26个滤波器的组。
在MFCC特征提取过程中,还会计算Delta和Delta-Delta系数,以捕捉帧之间的动态变化信息,提高识别效果。通过计算当前帧前后几帧的信息,可以得到一阶和二阶差分系数,增加特征维度,最终形成39维的MFCC特征向量。
与Filter Bank特征相比,MFCC引入DCT去相关性,主要为了简化GMM模型的协方差矩阵,使其成为对角矩阵,便于模型训练。然而,对于HMM-DNN系统,这种方法可能不是最优选择,因为会丢失一些信息,而直接使用Filter Bank特征可能更适合此类系统。
本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。