2.2 信号的数字化和预处理
接下来就要将收集到的语音转化为一系列的数值,这样机器才可以理解。
a)数字化
声音是作为波的形式传播的。将声波转换成数字包括两个步骤:采样和量化。
为了将声波转换成数字,我们只记录声波在等距点的高度,这被称为采样(sampling)。
采样定理(Nyquist theorem)规定,从间隔的采样中完美重建原始声波——只要我们的采样频率比期望得到的最高频率快至少两倍就行。
经过采样,我们获取了一系列的数字,这些数字才可以在机器上进行建模或计算。
我们每秒读取数千次,并把声波在该时间点的高度用一个数字记录下来。把每一秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。
「CD 音质」的音频是以 44.1khz(每秒 44100 个读数)进行采样的。但对于语音识别,16khz(每秒 16000 个采样)的采样率就足以覆盖人类语音的频率范围了。
b)采样信号预处理
这里的预处理主要指,分帧处理。
因为语音信号是不平稳的、时长变化的,如下图:
我们把它分隔为一小段一小段(10毫秒-40毫秒)的短语音,我们认为这样的小片段是平稳的,称之为【帧】。
在每个帧上进行信号分析,称为语音的短时分析。