语音交互是AI最重要的领域之一,也是目前落地产品比较成熟的领域,比如说智能客服、智能音箱、聊天机器人等,都已经有成熟的产品了。语音交互主要由哪些部分组成?各自主要处理什么任务?目前都遇到什么困难?本文将跟大家一起探讨下。
01 语音交互的组成
我们以一个智能音箱的例子来开始今天的讨论:
假设我们对智能音箱天猫精灵说“放一首周杰伦的《晴天》”。天猫精灵就会说“好的,马上为你播放周杰伦的《晴天》”,并且开始播放音乐。
这个过程猫精灵都做了些什么?
首先,天猫精灵把听到的声音转化成文字,然后理解内容,最后做出相应策略,并把响应策略转化成语音。
因此,语音交互就可以成以下这三个模块:
- 语音识别(Automatic Speech Recognition):简称ASR,是将声音转化成文字的过程,相当于耳朵。
- 自然语言处理(Natural Language Processing):简称NLP,是理解和处理文本的过程,相当于大脑。
- 语音合成(Text-To-Speech):简称TTS,是把文本转化成语音的过程,相当于嘴巴。
下面我们就来详细的介绍每一个模块。
02 语音识别(ASR)
通常语音识别有两种方法:
- “传统”的识别方法,一般采用隐马尔可夫模型(HMM)
- 基于深度神经网络的“端到端”方法。
两种方法都需要经过“输入—编码—解码—输出”的流程。
2.1 编码
编码就是把声音转化成机器能识别的样式,即用数字向量表示。
输入的声音信号是计算机没办法直接识别的,首先需要将声音信号切割成一小段一小段,然后每一小段都按一定的规则用向量来表示。
2.2 解码
解码就是把数字向量拼接文字的形式。