为什么唤醒词普遍是4音节,而不是中国人更习惯的3音节或2音节?这是因为音节越短,误唤醒的问题就会越严重,可如果音节再长,就从短语变成了句子,会降低用户的交流体验。同理,“Hey”作为一个英文语气词,就像在中文语境中使用“你好”一样,是为了增加唤醒词的音节,让系统能更准确的判断监听到的声音到底是对谁说的。
反过来说,省略掉“Hey”就意味着苹果的KWS技术有了巨大的进步,已经能够实现只需要一个单词即可判断用户意图的水平。之所以能够实现这一效果,技术原理其实并不复杂,苹果方面大概率是利用声纹识别技术实现定向人声分离,再通过卷积神经网络搭配声纹识别编码器,在复杂的声学环境下准确捕捉到目标用户的声音。
到目前为止,谷歌相关设备依然需要通过“OK Google”与“Hey Google”来唤醒Google Assistant,其中一个很重要的原因,就是“Google”一词本身由于谷歌已经深入到了用户的日常生活中,所以并不算冷门,只有这个词作为唤醒Google Assistant的“钥匙”,会不可避免的导致频繁误唤醒。作为对比,Siri这个被生造出来的词汇适用范围就很窄了,iPhone只需监听到契合“Siri”发音的声纹,即可判断用户有使用智能语音助手的需求。
并且值得一提的是,据悉苹果还计划允许Siri与第三方应用结合,而这对于Siri的易用性将有着极大的促进作用。要知道,此前曾有前Siri团队的成员表示,领导力的缺乏和管理层的不断变化拖累了Siri前进的脚步,其中最关键的原因,就是苹果方面一直以来坚持的封闭模式并没有对Siri破例,也未能让第三方开发者有更多机会创造更多有用的Siri应用。
在Siri还没有被登录iPhone或被收购前,其创始团队的预想其实是希望能够拥有一个第三方的开发生态,而这一点也被后来的一众智能语音助手陆续实现。比如说,最初Siri被希望实现的预约餐饮功能,是包含着日期、地点、菜品等多方位要素,而非简单地搜索一个餐厅的订餐电话。
未来Siri能够接入第三方应用,也就意味着苹果的智能语音助手可以借助第三方的力量,来为自己赋予更多的功能、完成更多的任务。如果这一消息属实,也就意味着在被忽视了多年后,Siri或许将要雄起了。