在国内,谈到智能语音技术,肯定绕不开一个人,那就是现任百度语音首席架构师贾磊,他是智能语音界举足轻重的AI大牛,于2010年加入百度,组建了百度语音团队,主导研发了百度语音识别和语音合成等一系列百度自有知识产权的语音核心技术。2016年短暂创业后又回归百度,主持研发了小度智能音箱的远场语音交互系统、小度车载语音交互、百度鸿鹄语音芯片、百度智能语音呼叫中心系统等一系列百度语音类产品并将相关技术推向中国社会,他还于2015年获得了全国劳模称号(互联网业首位全国劳动模范)。
作为 AI 落地的一个关键组成部分,智能语音交互技术这一路是如何发展起来并日趋成熟的?在2020魔幻的一年,智能语音技术的最新发展是什么?伴随着5G、AI算力等技术的快速发展,未来智能语音技术又将在哪些方向进行突破和创新?本文将分为上下两部分,结合贾磊的从业经历,从个人侧和技术侧详谈智能语音技术的过去、现在和未来,肯定能让你收获颇多。另外,贾磊也将于2021年1月8-9日QCon北京站上带来智能语音的更多精彩分享,欢迎大家现场面基,共同探讨、交流。
(上)
作为最早关注智能语音的业界大咖之一,贾磊是在什么契机下选择走上智能语音之路的?他对语音交互认知的本源是如何理解的?短暂创业经历又给他带来了哪些收获?接下来,本文上篇将你深入认识一下贾磊,全面了解下大牛成长记。
兴趣驱动,开启近20年的智能语音技术追求之旅
贾磊选择语音是兴趣驱动的。贾磊硕士毕业后,考入中科院自动化所攻读博士学学位。他最初的研发方向是图像处理,广泛涉猎了模式识别各学科方方面面的知识,也综合比较了图像、语音和NLP等学科的学科差异等。这时候逐渐开始对语音技术产生了浓厚的兴趣,很好奇人是怎么发出声音、感知声音、并且理解声音内容的。当时IBM的ViaVoice软件也是风靡世界,人们依靠声音来实现人机交互的梦想的实现就摆在眼前,语音产业化应用的明天一片大好。这时候正巧贾磊中科院自动化所的第一任导师因为工作调动问题,允许他们调换专业,最终他根据个人兴趣发展,申请从图像处理方向转到语音识别的技术方向上。从那时候开始,贾磊就开始了他近20年的语音技术追求之旅。
短暂创业让贾磊明白了伙伴间的“可依赖”关系
贾磊曾在2016年有过一段短暂的创业经历,谈及创业带给他的最大收获,贾磊坦言,创业使他懂得了创业伙伴之间需要的是“可依赖”,而不是简单的“可信赖”。大家因为信赖走到一起,“信赖”只是彼此结缘的开始。创业伙伴们之间需要维护的是一种可依赖关系,这种关系需要长期存在,是一个过程。创业过程中,经常舍死忘生,人力物力财力都有限,大家各自需要 120% 的投入解决眼前的问题。大家需要把后背交给对方,无条件的信任对方。大家背靠背的去战斗,背靠背的一起拼。每个人都拼死守住自己前方的战场,把自己的后背托付给一起创业的伙伴和兄弟。一个人败了,其实也是大家都败了,再说谁的责任已经毫无意义。创业会让人更加认识到团队协作的价值和团队的作用。除了对创业伙伴之间的关系理解外,创业带给贾磊最大的冲击是对资本的敬畏。之前一直在大公司打工做技术,从来没有意识到资本对于技术发展的可持续是如此的重要。经过创业之后,他深刻的理解到,技术要想有进步,不单单是技术人员的个人努力,更重要的是技术人员所属平台的持续长期投入。这些投入不单单是技术人员的工资、实验以及各种研发要件的投入,更为具体的是技术应用场景的投入,后者的投入更为巨大。因此创业之后再回到百度,贾磊更加感恩,百度的长期不计回报的投入,才让语音技术这个小草,在百度内能够长成参天大树。贾磊个人也从语音技术的普通专业技术人才,变成语音行业的技术领军人物。
如何理解语音交互认知本源
创业回到百度后,贾磊从之前侧重语音算法技术创新,变成算法创新和产业拓展兼顾。也许是认识到了资本对于技术的推动作用,贾磊要求团队成员都要有成本意识和营收意识(当然技术团队的营收都是概念上的,而不都是绝对实际的营业流水),都要具备业务整体推进能力,而不是单体算法创新。这也是他们投入做百度鸿鹄芯片的一个背景。讲这些乍一听,好像和人类认知没有关系,但是真正的把技术应用到实际的应用过程,贾磊越来越发现,人类的认知过程,不是一个简单的学科划分过程。不是说学语音的就只解决语音的认知,很多时候认知是视觉、听觉、理解一体化的一个过程,比如任何人交流中的肢体语言,就对人的意图理解起到举足轻重的作用,再比如语义理解过程和语音识别过程,在具体的产业应用中,是密不可分的。学科划分有边界,但是人的认知本源可能是一体的。解决语音交互的问题,不能单单从语音技术出发,要放在产业应用中,语音、图像和NLP一体化的规划和解决问题。
时间就像海绵里的水,努力挤才能平衡工作和家庭
贾磊曾在2015年荣获全国劳模称号(互联网业首位全国劳动模范),可以想见工作强度非常大,关于怎样平衡工作和家庭,他认为互联网的工作强度都很大,互联网工作的朋友们都牺牲了很多自己的生活休息时间。“我个人而言和从事互联网行业的伙伴们一样,都是全身心的投入工作,家庭生活感觉确实参与的少一些。陪孩子的时间也比较少,有时候工作忙了,早晨一大早出来,晚上很晚回去,回去后孩子也早就睡了。早晚两头都见不到孩子,非常想她。每次见到孩子冲着我笑的小脸,我都觉得很自责。如果不是很忙的话,我都尽量早晨早一点起来。陪她吃早饭,送她上学。上学路上,我会教她看红绿灯、走斑马线以及避让绿灯时候右转的车辆。之后,我赶紧开车奔向公司,正好能赶上大清早开始工作。我觉得时间就像海绵里面的水,只要你使劲挤,总是能挤出来的。不要错过陪伴孩子长大的时间,他们长大的很快,一晃就不再需要我们的陪伴了。”
(下)
上篇我们聊到了贾磊老师与智能语音技术的情结,下篇我们将着重从技术侧和你聊聊智能语音的过去、现在和未来,干货满满。
智能语音行业发展历程解析
IBM ViaVoice 时代的语音技术
语音行业在2000年左右,迎来了第一个产业高潮,也就是IBM的ViaVoice 语音录入软件。当时人们把这个软件安装到PC机器上,就可以在计算机前面朗读报纸或者新闻内容,或者录入一些简单的日常用语,识别率也还不错。于是工业界有了一次大规模连续语音识别的产业化应用的热潮。当时,ViaVoice时代的语音技术还是以HMM建模和混合高斯系统 (GMM) 为声学建模核心的建模技术,语言模型采用的是基于 Ngram 的统计语言模型。因为 PC 上的内存限制,语言模型体积也只有几十 M。另外,当时可以获得的文本语料也是有限的,所以语言模型能覆盖的内容范围很小,当时主要集中在新闻报纸和日常用语领域。因为 HMM 系统和混合高斯系统建模能力有限,这时的连续语音声学训练语料库也就只有数百小时。这个时候的语音识别系统对说话方式和口音的要求也很严格,说话方式必须是朗读方式,口音也要求必须是标准普通话,否则,识别率迅速下降。很快的,人们发现 ViaVoice 难以满足人们在 PC 上把声音转成文字的产业需要。慢慢地,ViaVoice 的产业热情就逐渐降温了。

早期Windows上的ViaVoice软件
在2003年贾磊毕业的时候,基本上人们对于语音输入的产业期望已经很低了,各大公司都降低了语音技术的投入和预期。贾磊刚毕业就立刻迎来了语音技术的第一个低潮期,当时很多做语音专业的学生都转换方向,不少人做语音也是选择留校,而不是工业届。当时国内各大公司比较多见的语音需求是手机上的数字和人名拨号系统、以及车载语音导航等嵌入式产品研发,技术也大都集中在设备端侧的单通道语音识别或者是语音合成。技术上讲,这些应用都是嵌入式孤立词语音识别系统,其特点是只能识别特定的指令词和句式。之后的几年,除了零星的嵌入式设备应用外,语音技术在工业界的拓展乏陈可新,语音产业持续低迷。
语音技术的产业应用迎来第二波高潮
痛苦的日子总算没有太长。在2007年,微软公司收购语音识别技术企业Tellme Networks,并开始组建自己的语音团队,语音技术的产业应用又重新回到大公司的关注热点中。很快,谷歌于2008年在美国发布了英文语音搜索服务Voice Search,并应用于Android、诺基亚S60、黑莓、iPhone 等多个系列的手机。之后,谷歌又在 2009 年发布了中文语音搜索,语音的产业应用迎来了新一波高潮。这一波热潮的核心特点是以互联网需求和实现为基础,此时模型处在云端,所以体积可以更大。例如语言模型,由于位于云端,语言模型体积可以达到上G,这是之前2000年左右的ViaVoice 语音系统所不可能达到的(2000年的比较好的PC计算机内存才256M,那是语言模型位于终端,也只有几十M)。语言模型位于云端后,热词新词的信息更新也更加及时,同时大的模型体积意味着对支持的语言领域更加广泛。同时,技术上虽然声学模型仍然是以 HMM 框架 GMM 建模为主体,但是可以采用更多更大的训练语料。数千小时乃至上万小时的声学训练语料库已经开始进入工业界。因此从 2000 年到 2010 年左右的十年期间,虽然语音识别的核心算法技术仍然是 HMM、GMM 和 Ngram 统计语言模型,但是因为互联网技术的引入,可以采用云端体积更大的声学模型和语言模型,训练这些模型的语料库也显著增加,最终导致语音交互的用户体验得到很大提升,语音技术的云端应用逐渐开始流行。

深度学习首次应用语音识别的系统框图
2011年, 微软的邓力和俞栋两位学者通力合作, 把深度学习技术应用于工业级的大词汇量连续语音识别实验, 获得相对于传统基线系统 23% 的显著提升,这标志着语音识别技术最先迎来深度学习革命。深度学习应用于语音识别,最初的整体建模框架仍然是 HMM,但是声学输出分布 GMM 模型被替换成了深度学习 DNN 模型。这时候的语音识别系统是一种 HMM 和 DNN 混合 (hybrid) 的语音识别系统。随着深度学习技术在语音技术中越来越深入的应用,从 DNN 到 CNN,再到 CNN LSTM,语音识别系统的字错误率以每年 10%- 15% 的相对错误率降低。再后来伴随着 CTC 技术的引入,更大粒度的建模单元(WordPiece 模型,音节和字)开始逐渐越来越多的被采用,应用于语音识别几十年的 HMM 框架逐渐被淘汰。
语音识别技术进入端到端时代
从 2015 年开始到 2020 年这段时间,注意力建模技术的研究,又让语音识别技术开始进入端到端的时代。2019 年之前,Attention(注意力) 技术早已经广泛应用于 NLP、图像等商业产品领域。但是语音识别领域,从 2015 年开始,实验室内就广泛进行了基于 Attention 的声学建模技术,也获得了广泛的成功。国际上通常用于语音识别的注意力模型有两种,一种是谷歌的以 LSTM 为基础的 LAS(listening attention and spelling) 模型。另外一种是基于 self attention 的 transformer 模型。这两种注意力模型在实验室的各种实验中,都能够显著提升语音识别系统的识别率,同时实现了一套深度学习模型,语音语言一体化的端到端建模。虽然注意力模型在实验室范围内获得巨大成功,但是应用于工业界的实际在线语音交互产品,还存在一系列的技术障碍。核心难题就是在线需要识别系统需要流式解码,而注意力模型需要拿到整段语音才能进行解码,会造成用户无法接受的识别延迟问题。所以注意力模型直到 2019 年初,都没有在工业在线语音交互中使用注意力模型做语音识别的成功案例。2019年1月,百度发布率先发布了基于流式置信度建模技术的语音输入法产品,首次提出流式多级截断的注意力模型 (SMLTA),这是国际上注意力模型在在线语音识别领域的大规模工业应用的首个成功案例。之后,流式注意力模型在学术界也开始进入广泛的研究。最近,语音识别应用中的逐渐集中到流式的 self-attention 建模,包括流式的 transformer 等。人类对于语音识别的核心技术提升的脚步从来没有停止过。

基于注意力机制的语音识别端到端建模的通用框架
2015-2020年期间,智能音箱产业在中国乃至世界范围内,都得到巨大的发展和普及。在智能音箱使用场景下,目标声源距离拾音器较远,致使目标信号衰减严重,加之环境嘈杂干扰信号众多,最终导致信噪比较低,语音识别性能较差。为了提升远场语音识别准确率,一般会使用麦克风阵列作为拾音器,然后利用数字信号处理领域的多通道语音信号处理技术,增强目标信号,最终产生一路清晰信号,送给后面的语音识别系统进行语音识别。这时候数字处理信号系统和语音识别系统相互级联是主流的远场语音识别技术,这种级联技术也成为第一代智能音箱远场语音交互技术的主流技术。随后,语音学术界开始进行一系列的技术创新,从数字信号处理到语音识别一体化的端到端建模成为热点。这是一种创新的远场语音交互技术,一套深度学习模型打穿数字信号处理和语音识别两个领域。国际上,Google 最先试图解决这个问题。谷歌的解决方案采用的深度学习模型结构,来自于类似于 filtering and sum 的数字信号处理思想,模型底部的结构设计,模拟了数字信号处理的多路麦克处理过程。在此之上,模型仍然是采用传统的近场语音识别的深度学习模型。该模型直接建立了从远场语音多路信号到识别文字之间的端到端的进行。百度团队针对远场语音识别的特殊需求,也提出了自己的基于复数 CNN 的远场端到端建模方案,并大规模应用于工业产品。
语音技术从之前的云端竞争开始逐渐向端侧芯片延伸
2020年左右的AI芯片的发展,也对语音交互行业产生了巨大的推动作用。在AI技术快速普及的今天,算力已经成为推动 AI 行业发展的根本核心力量。2011年微软的科学家能够把深度学习应用于语音识别工业界,除了科学家的勤奋工作之外,更重要的背后的推手是GPU。没有 GPU 的算力支持,就不可能一个月完成数千小时的 DNN 模型训练。从2011年至今,英伟达的股价已经从十几美金,暴涨了几十倍。这一点充分证明了 AI 算力的价值,在语音识别行业,远场识别的兴起催生了 AI 语音芯片的发展。一颗芯片完成端侧信号处理和唤醒成为一个明显的市场需求。在智能音箱领域,这种 AI 语音芯片能够显著降低音箱的成本,并且提供更高精度的唤醒和识别能力。在汽车车载导航领域,AI 语音芯片可以保证主芯片的负载安全,提升驾驶安全。各大语音公司都开始推出自己的语音芯片,语音技术从之前的云端竞争又开始逐渐的向端侧芯片延伸。
2020 年百度语音技术成果盘点
智能语音交互系统是人工智能产业链的关键环节,面对未来智能语音产业链的新需求,百度研发了新一代适合大规模工业化部署的全新端到端语音交互系统,实现了语音交互全链路协同处理,软硬件一体优化,信号语音一体化建模,语音语言一体建模,语音语义一*互,语音图像多模态融合,全深度学习的语音识别、语音唤醒以及千人千面个性化语音合成等,其中重大技术创新如下。
1. Attention(注意力) 技术早已经广泛应用于 NLP、图像等商业产品领域,但是语音识别领域,从 2015 年开始,实验室内就广泛进行了基于 Attention 的声学建模技术,也获得了广泛的成功,但是在语音识别最广泛使用的语音交互领域,Attention 机制一直没办法应用于工业产品。核心原因是语音识别的流式服务要求:语音必须分片传输到服务器上,解码过程也必须是分片解码,用户话音刚落,语音识别结果就要完成,这时候人的说话过程、语音分片上传过程和语音识别的解码过程三者都是并行的。这样用户话音一落,就可以拿到识别结果,用户的绝对等待时间最短,用户体验最佳。传统注意力建模技术必须拿到全局语音之后,才开始做注意力特征抽取,然后再解码,这样一来解码器过程的耗时就不能和语音识别的解码过程同步起来,用户等待时间就会很长,不满足语音交互的实时性要求。
