“Hey Siri,讲个笑话”,相信许多iPhone用户都尝试过这样与苹果的智能语音助手Siri对话,但在未来,大家与Siri聊天时可能就要换一个词了。日前有消息显示,苹果方面计划将智能语音助理Siri的唤醒词从“Hey Siri”简化为“Siri”,这一变化预计将在2023年某个时候或2024年推出,同时苹果正在将Siri整合至第三方APP,来为用户提供更多语境和帮助。
作为苹果推出的智能语音助手,早在2011年就已亮相的Siri,无疑是这十余年来手机厂商在AI领域探索的代表之一。别看苹果未来仅仅只是去掉了“Hey”这个单词,但这一微小变化的背后却代表着苹果AI技术的长足进步,同时也意味着苹果在智能语音助手领域已经追上了竞争对手亚马逊的脚步。毕竟在很长一段时间里,尽管作为智能语音助手领域的先行者,Siri却一直被用户吐槽“有点蠢”、“不智能”。
从“Hey Siri”到“Siri”,反映的是苹果在语音识别技术上有了重大的突破。就像每个人都有自己的名字一样,智能语音助手其实也需要特定的词汇来让它知道用户是在喊自己。从某种程度上来说,唤醒词同时也是智能语音助手品牌形象的一大组成部分,通过每一次激活语音助手时说出的唤醒词,消费者关于这个品牌的记忆就在这样日复一日的复读中不断被强化。
那么为什么智能语音助手一定需求一个唤醒词呢?这是因为智能语音助手如今还不可能24小时时刻保持在线状态,需要保证只有在用户需要时才进入工作状态,其他时间则保持休眠。相比于按专属按键唤醒、点击图标唤醒这类触摸唤醒机制,使用特定的唤醒词来激活智能语音助手,也更契合这一产品的特质。
语音唤醒被称之为keyword spotting(下文简称为KWS),即在连续语流中实时检测出说话人的特定片段,而这个特定片段就是唤醒词。通常来说,如果不是手动禁用语音助手,后者作为系统级服务会长时间驻留在后台,然而智能语音助手作为一个需要大量AI算力支撑的功能,在工作状态下需要不低的性能开销,同时也会相应的提升功耗。
面对这一问题,开发者想出的办法是通过专用于语音唤醒的低功耗协处理器来实时监听麦克风,一旦监听到类似“Hey Siri”、“小爱同学”、“Hey Google”这类关键唤醒词时,就会将语音助手从休眠状态转换到工作状态。这个策略的好处除了降低对设备的续航压力外,也会避免一直处于工作状态的语音助手,处理并不是发送给自己的音频信息。
其实语音唤醒的难点,主要就是低功耗与用户临时需求之间的矛盾,一个既能有效唤醒语音助手,又不至于让系统误判的唤醒词也是整个KWS机制的核心。大家想必已经发现,目前国内市场的智能语音助手唤醒词往往是4个字,比如“天猫精灵”、“小爱同学”、“小度小度”。这是由于汉语发音与音节的关系,大家可以简单的把字数理解为音节。