f0是什么?
f0是音调频率,是描述人类语音信号中基频(fundamental frequency)的参数,也是声音中最基本的特征之一。在日常生活中,我们能够感受到一个人说话的基频高低、上升或下降,这些都是f0所描述的音调特征。f0一般用赫兹(Hz)表示,例如男性基频约为85-180 Hz,女性基频约为165-255 Hz。
如何在语音信号中提取f0信息?
一般而言,提取f0需要进行语音信号的预处理和特征提取,以下简要介绍两种主要的提取方法。
1. 基于自相关函数的提取方法
自相关函数(autocorrelation function)指的是一个信号与自身经过不同时间延迟后的相似度。基于自相关函数的提取方法,是通过计算语音信号经过若干滞后时间的自相关函数,找到其中最大的峰值,将其对应的时间间隔即为语音信号的基频周期,从而得到f0。
2. 基于功率谱的提取方法
功率谱(power spectrum)指的是一个信号在不同频率下的能量分布。基于功率谱的提取方法,是计算语音信号在不同周期下的功率谱,并寻找其中的谷值,谷值对应的频率即为语音信号的基频。
总结
f0是语音信号中描述音调的重要参数,它能够揭示说话人的性别、情感、语气等特征。提取f0需要进行语音信号的预处理和特征提取,基于自相关函数和功率谱的方法是两种常用的提取方法。
0