当前,随着AI时代的到来,越来越多的人发现了语音交互的潜力,开始着手策划进入这个领域。本篇文章作者给大家分享了自己有关语音交互技能的一些看法,供大家讨论学习。
目前,在亚马逊alexa上,语音交互技能的数量已经超过5w,虽然这个数量和质量还没法和GooglePlay和AppStore提供的620万款应用媲美,但仍然是一件令语音AI从业者欢欣鼓舞的事,随着AI平台的规范化、标准化,越来越多的产品经理注意到语音交互的潜力,开始策划和设计技能。
这其中,也有不少刚刚接触语音交互技能的朋友,所以整理了一些基本概念,也夹杂了一些自己的看法,特与大家分享、讨论。
语音交互技能,也叫“技能”,这是个新鲜事物,在2年前,大家还必须要用英文,叫它skill。而定义语音skill的,正是亚马逊的现象级语音交互产品——echo。
一、亚马逊的0到3,贝索斯的130到5000
时间回到2015年,当时的智能音箱大家还是用来听听歌啊,查查天气啥的(虽然听歌查天气的功能也没有达到很完善)。
当年7月份,亚马逊宣布了开放部分语音交互能力给第三方,正是这个尝试,让alexa平台诞生了最早的skill:Crystal Ball(水晶球),Math Puzzles(猜数字),StubHub(今晚干啥)。
详见下图:
现在看来这三个skill很基础,甚至是有点简陋。
比如,Crystal Ball“水晶球”这个skill的功能就是回答yes或者no,而且还是随机的……
比如你问音箱:alexa,我该减肥吗?音箱回答:yes,第二次你问音箱:alexa,我该减肥吗?音箱回答的可能就是no。
你问什么问题音箱不管,音箱只管回答yes和no,我觉得这个技能也许实现起来只用了三、四行代码吧,技术上应该是蛮简单的。
Math Puzzles“猜数字”这个skill也不难,就是播报一串数字,这串数字有一定逻辑,你说出下一个数字就可以了。比如,音箱会问2,4,6,8的下个数字是多少?你跟alexa说10,就算答对了。
StubHub“今晚干啥”稍微复杂点,alexa会把音箱的地理位置给到开发者,所以当你问alexa今晚干啥的时候,alexa可以根据地理位置推荐附近的电影、沙龙、活动和派对给你。比如:
用户:“alexa,我今晚该干点啥?”
音箱:“附近的XX创客空间,有一场人人都是产品经理主办的AI主题演讲貌似很不错,时间是晚上8点钟。”
但是,如果用户追问:“alexa,演讲人是谁”,音箱就回答不上了,是的,alexa开放出来的技能最早也没有多轮对话。
到了16年1月,alexa的skill数量达到了130个,alexa团队兴高采烈的发了个(信息图)infographic介绍成果。
结果把亚马逊的老大贝索斯搞炸了,趁着来开会把alexa团队教育一番,130?Wtf,怎么这么少……(据美国媒体the information报道,但亚马逊官方不予置评)
贝索斯要求这个速度要加快,加快,再加快。alexa的团队也很拼命,到了11月,alexa的skill数量达到了惊人的5000 ,这个时候美国人民已经可以用alexa叫Uber,听Twitter内容了,智能音箱终于摆脱了只能听歌,查天气的窘境,当然这还要部分感谢贝索斯。
二、国内:从skill到技能,VUI时代的到来
等冬天过完,到17年上半年,对硅谷随时保持敏感的国内互联网大佬们,顺利把国内智能音箱的大战点燃,做skill的人逐渐多了起来。
skill,skill的叫着也不太顺,用户也用不明白,还是得要个中文的名字,翻译为“技能”再合适不过。
根据《辞海》,技能是运用知识和经验执行一定活动的能力。放到语音AI的场景里,语音交互技能就是运用自然语言对话的交互方式,实现影音娱乐、信息查询、生活服务等的功能,简称“技能”。
目前,不管是亚马逊alexa,还是国内的各家AI平台,技能的分类标准都很像,基本是把技能分成三大类:自定义技能、智能家居技能、内容播报技能。
- 自定义技能主要是生活服务、娱乐游戏,比如上文介绍的几种技能,都属于自定义技能。
- 智能家居技能主要是用来对其他智能设备进行语音控制,接口的完善性和语音交互已经趋于成熟,我听说有的团队把硬件接入alexa可能一天时间都用不到(审核时间不算)。
- 内容播报技能主要是对于新闻和信息的传递,像alexa平台很早的时候就集合了几乎所有美国的主流媒体:NYT、WSJ、NPR、CNN等等,媒体们对这个新兴平台还是处于卡位阶段。
和CNN的受众发展部副总裁艾伦-西格尔交流时,就发现他们暂时还是把亚马逊的echo这个平台放在战略圈的最外层(见下图),和apple watch等渠道平级,但他依然看好这种形式的潜力,毕竟美国已经有五分之一的家庭拥有了智能音箱。
而国内,腾讯新闻和新华社等都已经开始尝试把新闻feed接入智能音箱,并且在小雅AI音箱、小豹AI音箱等设备上落地。
要做技能,肯定要选择一个分类,这三种分类的技能在开发上侧重点也会不同。
比如,自定义技能,它的核心就是是语音交互(voice interactive ),语音交互就是将人的语言转换成应用的request(面向系统的请求)的模式,也就是VUI(Voice UI),我们之前谈论的UI更多意义上是GUI(Graphic UI),而要做好的VUI的交互和GUI一样,都对于细节提出了更多更高的要求。
亚马逊的VUI设计师Amdrew ku就说过:“人类对于声音的敏感是超出很多人的想象的。”
过去很长一段时间VUI方面积累的理论远远少于GUI,市面上相对经典的一本书是被翻译成中文,今年刚刚出版的《语音用户界面设计》。
当然亚马逊的alexa平台和国内各家AI平台也积累了不少的经验,大家感兴趣的话平时可以多多关注各家的论坛。
目前,技能的生态森林正在逐步形成,相关资料也越来越多,愿刚接触这一领域的开发者、产品经理都能做出体验更好、更被用户需要的技能。
本文由 @maoChuan 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议