讲师 | 周力
来源 | AI科技大本营在线公开课
微软小冰第六代发布会上正式宣布上线全新的共感模型,同时也开始公测一种融合了文本、全双工语音与实时视觉的新感官。这项新技术可以实时预测人类即将说出的内容,实时生成回应,并控制对话节奏,从而使长程语音交互成为可能。而采用该技术的智能硬件设备不需要用户在每轮交互时都说出唤醒词,仅需一次唤醒,就可以轻松实现连续对话,使人与机器的对话更像人与人的自然交流。
回放地址:https://edu.csdn.net/huiyiCourse/detail/934
本期公开课中,微软小冰全球首席架构师及研发总监周力博士将介绍微软小冰在全双工语音对话方面的最新成果,及其在智能硬件上的应用和未来将面临的更多技术产品挑战。
以下是公开课演讲速记整理
首先介绍一下微软小冰在全双工对话上的部署。我们这套技术事实上是从两年之前,大约是在2016年的7月份,我们做了第一个落地,那个时候我们是和有信IP电话进行了合作,它可以通过网络电话,你直接在电话上和小冰聊天,同时我们在北京科技馆等等地方,你还能看到小冰的电话亭,你在那里面就可以跟它去打网络电话。
之后我们又和小米合作,在小米控制智能家居的APP米家APP里做了一个可以接通电话,去控制各种智能家居,包括跟它去聊天,使用各种功能的助手,这个是2017年的6月份。在2018年1月份,我们和小米,还有小米生态链的叫Yeelight公司共同推出了一款新的语音设备,它叫Yeelight智能语音盒,这个盒子里同时拥有小米自己的小爱同学和微软小冰两个智能助手。而微软小冰的这个智能助手使用的就是全双工语音对话。最后我们和一个叫喵驾的车载系统进行了对接,同时我们和三大运营商有了落地,我们可以直接让小冰打电话给真实的用户,这个是全双工现在的技术使用的范围。
我们想给大家定义——到底什么是全双工?全双工语音和我们现在所熟悉的一些语音助手,不管是手机上的,还是在智能音箱上和其他的智能家居,它有什么样的不同?
第一,想说明全双工这个名词其实并不是人工智能或者说语音AI的时代才出现的,它的英文叫Full Duplex,Full Duplex这个词事实上早在大概100年前就已经很明确了,它是一个通信的术语,它的通信术语定义的就是一个实时的、双向的语音信息的交互,就叫全双工。而我们大家所熟悉的全双工的最重要的一个应用就是电话,我们以前去打各种各样的电话,双方都可以同时说话,这个就叫全双工。而与之对应的所谓半双工,其实最典型的传统设备就是一个步话机,我们大家都知道步话机,我摁下来的时候就只能我这边在说,我说完了之后我说over,然后对方再把他的步话机的按纽按下去进行对话。这是和全双工对应的半双工。
从通信技术上,如果是人和人之间的对话的话,全双工我们100年之前就已经解决了。到了现在的人工智能时代,到了语音的时代,我们通信有了一个新的需求,就是人和机器人进行对话,我们不再是两个人之间,有一方是一个AI。由于一些历史上的原因,比如说我们最近的10年,即时通讯软件,不管是它的前辈QQ、微信这些风靡,让我们人和人之间从一个面对面或者说打电话这样的一种直接的双向交流的方式,突然人之间开始尝试着采用一个不是实时双向的交流方式。比如说我们有的时候会发个短信,我们会发一个语音的消息,就是人原本的最自然的一种交流的方式,由于科技的发展,我们其实产生了一些分支。那么作为科技的研究者,我们也就自然而然地开始习惯说当我们切换到一个人和一个人工智能进行交流的时候,我们会首先想到的是,我给你发一条语音消息,然后人工智能给你回一条语音的消息。
我们也看到市面上我们熟悉的绝大多数的智能音箱,或者更早期的在手机上的语音助手,都是这么实现,发语音消息。很简单,我发一条消息,收一条消息。所以我们看到语音交互它最开始出现的形态是单轮交互,体现到智能音箱的时候,它其实很不方便,因为智能音箱每次我们都需要一个唤醒词,我需要说Amazon,巴拉巴拉一句话,说第二句话的时候我还要再说唤醒词,巴拉巴拉。