梅尔倒谱系数(MFCC)在语音信号处理领域是一个广为应用的特征提取方法,本文详细讲解其提取过程。
首先,预设连续语音,其点数为107000。预设预加重系数为0.97,帧长设定为25ms,帧移为10ms。窗函数采用汉明窗,FFT的点数为512,采样频率设定为16000Hz。
预加重是为了消除口唇辐射对高频成分的影响,通过差分方程实现,使语音信号具有更好的高频分辨率。预加重后,信号长度保持不变,预加重系数为0.97。
为了保证输入信号的平稳性,将原始语音信号分帧,帧数计算为107000 / (25 * 1000) = 428帧。每帧包含25 * 1000 = 25000个采样点,帧移为10ms,不足一帧的采用补零处理。
加窗处理以避免信号非周期截断导致的频谱泄漏,常用窗函数有汉明窗、汉宁窗和矩形窗。加窗即每帧信号与窗函数对应元素相乘。
然后,对分帧后的语音信号进行快速傅里叶变换(FFT)。为了利用FFT的分治策略,原始帧长进行补零,使其达到2的幂次方,例如原始帧长25000补零后为51200。采样频率为16000Hz,对应频率分量点数为25000,实际表示频率为16000 / 51200 * k。
MFCC的分析基于人耳听觉特性,采用Mel频率尺度,Mel与实际频率的转换公式为[公式]。Mel滤波器组实现过程为根据功率谱求每个三角形滤波器的输出。
MFCC的倒谱分析即求解信号的倒谱特征参数,可通过同态处理实现。同态处理能将卷积关系转换为求和关系,提取语音信号的频谱包络。
引入一阶差分(deltas)和二阶差分(deltas-deltas)以捕捉语音信号的动态变化。一阶差分计算公式为[公式],其中t表示帧数,N通常取2,c指MFCC系数。二阶差分在一阶差分基础上计算。
综上所述,MFCC特征提取过程涉及预加重、分帧、加窗、FFT、Mel滤波器组、倒谱分析以及动态信息的引入,这些步骤共同构建了MFCC特征,用于语音识别和其他相关任务。
参考文献:《语音信号处理》,赵力著。
本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。