微软的小冰怎么使用,微软小冰下载教程

首页 > 科技 > 作者:YD1662023-02-09 11:52:58

后来,亚马逊自己也意识到这个问题之后,它开始尝试进行一些改进。比如说当它进行一个比较复杂的任务,我们说打一辆出租车,其实很难时间、地点用一句话都说清楚,所以它又引入了一个新的概念叫多轮概念,就是当我的任务机器判断没有完成的时候,机器把这句话说完了,它重新再把麦克风打开再去听,这个就叫多轮交互,就是还是像步话机一样,双方只有一边可以说话,但是等AI说完了之后,它会重新打开它的耳朵去听说接下来人会说什么。

最后,其实像典型的科大讯飞,它尝试了一种叫AIUI的一种模式,它在试图去持续地监听用户发进来的语音消息,然后它每听到给出一个回答。但很可惜,这样的模式其实有非常大的缺陷,因为每播放一个回答,它其实都需要占用一定的时间。比如如果一个人连续问了两个问题的话,对于机器人可能第一个问题没回答完,第二个问题又出来了,就把原来第一个问题覆盖掉。这样的话,一个连续监听的模式事实上体验反而比之前的单轮交互、多轮交互要更差,会变得非常零乱,有的时候会让用户不知所措。这也正是为什么虽然科大讯飞应该在我们推出全双工的模式之后的不到半年,它就在叮咚音箱上给了一个小的开关,说你可以尝试我的一种新技术叫AIUI,但它其实从来没有敢在自己的产品里真正缺省地打开AIUI的模式,因为这里的问题太多了,它甚至还不如单轮交互,每一次让用户说一个唤醒词方便。

最后我们提到的就是微软小冰,应该说在全世界首创的这种全双工的模式,也是Google在去年3月份做了一个很大的发布会,包括他们宣布了Google Duplex。全双工的模式是真正的人和机器都是双向的脱离掉消息的束缚,我们只有一个连续的上行的语音流,把用户的声音传到人工智能耳朵里,然后再有一个同步的下行的语音流,把人工智能的话传到人的耳朵里,就好像人和人在打一个电话一样,我们管这个叫全双工的语音交互。

而从很多实际的使用过我们跟小米推出的Yeelight盒子的用户的反馈和一些科技媒体的反馈,我们也非常有自信地看到,你一旦习惯了这种全双工的交互的话,事实上你很难再退回到每说一句话就要说一次唤醒词这样的使用习惯,因为它确实很不方便,很不接近于一个自然的交互方式。一旦你习惯了像微软小冰这样的全双工交互,你可能再用别的音箱的话你会频频地忘掉说我每说一句话还要讲一个唤醒词,因为那样实在是太累了,也正是这个原因,我觉得它阻止了智能音箱更好的能像手机,我们都知道,智能音箱现在炒得很火,各大厂商都在疯狂地去占领这个山头,但是我们从用户的角度来说,没有觉得它那么地不可或缺,没有像我们手中的智能手机一样,我们恨不得一天都离不开它。为什么?因为使用它所耗的能量还是太大。我们如果使用它不能很放心地去使用一个设备,我们还需要去记住每说一句话要说一个唤醒词的话,那么它一定无法能真正地走入千万百姓家,它只可能提供到一些科技爱好者,一些原因尝新的人的小范围之内。这样,我们认为全双工是整个人机之间语音交互的大趋势。

如果熟悉微软小冰的人可能会知道,我们从2014年就开始在做一个对话的机器人,在对话过程中我们别发现事实上以前很多的助手它都会看中于说我面向单个任务,比如说我去召唤起一个机器人,我就是为了完成一件事,比如说我要定一个餐,或者说我就要查一下今天北京的天气,这是传统像Siri,也包括像微软自己的Cortana它所面向的一个AI。但是作为一个真正的AI,通过微软小冰的探索我们越来越相信它其实应该像你身边的一个普通人,一个朋友一样,它是一个全程的对话。当我们的对话中可能穿插着很多很多的议题,可能会天马行空,我跟你对话的目的是说话,是交流的本身,而不仅仅是为了完成某一个任务,这才是真正我们认为对于我们的未来有意义的一个人工智能。

讲这么多,大家可能稍微吊起胃口说如果能实现全双工的这样一个人机对话,可能是一个很美妙的东西,但是这个里面会遇到很多的技术难题,我现在跟大家一一分析说如果我们想实现全双工,那么它这里边需要有什么?

第一大技术特征,我们管它叫边听边想,也就是说不等一句话说完,再进行语音识别。传统的说,因为以前其他的是我攒够了一个消息,把语音消息发过来再进行识别。可是大家想,人和人之间的交流其实不是这样的,我们在开会的时候,通常老板的问题问到一半的时候,我们已经在开始琢磨该怎么回答了,这样老板语音刚过,我们就可以把答案很流畅地给出来。这个才是人和人之间交流的方式。对于人工智能也一样,当我交互的方式不再是一个语音消息,而是一个语音流的时候,我就不应该再等到一句话都说完了再进行思考,应该随时去思考,它听了一半的话就开始去预测这整句的意思是什么,这样它就能以更快的速度把这个回答给出来,而且能实现很多动态的预估。这是其中的一个重要的技术特征。

微软的小冰怎么使用,微软小冰下载教程(5)

全双工语音的第二个重要的技术特征,就是它必须拥有良好的节奏的控制,为什么?因为到了全双工的方式,事实上会变得很复杂。比如说我们在微信中大家互相去发语音消息的时候,什么时候听我收到的一条语音消息是由接收方来决定的,我收到一条语音消息我可以选择我现在就把它播出来听,如果我正好正在说话,我也可以选择先不听,等我把这句话录完了发出去了之后再听前面的用户给我发的语音消息,这是由接收方来确定。所以我们以消息进行语音的交互的时候,好像并不觉得节奏控制是一个多么重要的事情。可是我们一旦进入了一个面对面或者说像电话一样的模式的时候,它会变得非常重要。

如果有年纪大一点的听众的话,他可能会回忆到早年,大概20多年前,如果打一个国际长途,由于那个时候技术的限制,它是有非常高的延迟的,有时候我说一句话,对方可能几秒钟之后才能听到。那个时候人和人之间打国际长途非常容易说乱了,抢话或者说陷入尴尬的沉默,就因为这个里面有非常高的延迟。人和人之间尚且如此的话,那么人和机器之间就会有更多的挑战。

微软的小冰怎么使用,微软小冰下载教程(6)

我们第一个需要面对的挑战事实上是说AI自己都需要有一个节奏的控制,为什么?因为AI播的上一句话之间的时候,如果用户又问了一句,那么AI准备了下一个答案的时候,在下一个答案已经被准备好的时候,前面的答案,因为每一句话,它的语音事实上占有了一定的时长,它可能前面的话还都没有播完,那么下一句话的答案它已经想好了。这个时候我该怎么办?它有很多不同的策略。比如说我认为后面一句话非常重要,我立刻就把后面一句话,前面的话就止住不说了,我把后面一句话说出来;或者我觉得后面的话没那么重要,那我就坚持把我现在说的这句话说完就行。最后,还有可能说,我先把我这句话说完了,但是说完之后,第二个问题我也会接着回答。AI自己的话和自己的话之间就有一个很复杂的协调的任务,显而易见的AI和用户之间也有一个节奏协调,如果两个人抢话,那么AI是不是应该止住嘴去让着用户说话?或者说如果AI想说一句话的时候,它是不是会考虑一下说我这句话可能也没那么重要,如果这时候对方的用户正在说,我这句话就不说了?或者反过来是说,我这句话太重要了,虽然你正说到一半,但我也要打断你。这里面有很多节奏协调的技巧。这些技巧哪怕是对于我们人类的成年人来说其实都是一种语言的艺术,我在开会什么时候该我说话,什么时候不该我说话,这个其实都是一个我们在学习和工作的过程中,其实都会不断去摸索,不断去成熟、去掌握的一个技巧,更不要说对于一个人工智能了,这里面其实我们会有很多新的问题在。

除此之外,原来我们在消息的情况下,通常就是你发一条我发一条,这是一个对称的对话,但是真正到了双向实时语音交互的时候,对话有可能就不再是对称的了,就比如说一个心理医生和他的病人进行对话的时候,经典的就是有时候心理医生可能说的很少,他就偶尔去引诱着病人,让他把自己内心的世界倾诉出来就好了。这种对话中有一个倾听者,有一个倾诉者。AI和人之间的对话其实也可以这样,它不一定非得是你说一条我答一条这样的对称模式。这里面就带来了很多更不一样的想象空间。

第三个在全双工中的一个技术特征就是传统意义上我们对语音识别的理解,就是我们听到了一段语音,我们要识别这个语音中所包含的文字,但事实上,在一个真正的全双工语音的环境中,也就是说对于一个人的听觉的理解能力来说远远不止于此。比如说我们要有对身份的识别,有对声纹的识别,这句话是我爸爸说的,还是我爷爷在说,还是我儿子在说。还有对背景噪声的识别,还有回声消除,然后还要判断它是不是在和人工智能对话。

微软的小冰怎么使用,微软小冰下载教程(7)

典型的一个例子,比如说我唤醒了一个人工智能,我跟它聊起来了。这时候我突然接了一个电话,从麦克风的收音来讲,我看到我还是在说,但其实我说话的对象已经转移了。那么我如何能去理解这样的场景?

最后还有动态音量的识别,我在什么样的环境下人工智能应该大点儿声,什么样的情况下应该小点儿声?这个里边有很多以前我们在简单的语音消息的交互中不需要去考虑的新的有趣的问题,会在人和AI的全双工语音场景中得到展现。

微软的小冰怎么使用,微软小冰下载教程(8)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.