由此可见TWS耳机的市场容量的巨大,音频和手机厂商也都纷纷加入这个领域,势必也要从这块巨大的蛋糕上狠狠切下一块。
而在2019年的3月20日,Apple推出全新的TWS真无线蓝牙耳机——Airpods2,这次升级,主控芯片换成了全新的H1,而功能上除了支持了无线充电之外,还有一个非常重要的一点,那就是语音唤醒。
二、TWS耳机语音唤醒方案实现的细节
Airpods的成功源于其优质的体验,而Airpods2代此次升级了语音唤醒,语音唤醒是智能语音非常重要的一环,手机上面早就大量支持比如iPhone的Hey Siri、小米9的小爱同学、samsung galaxy S10的Hi Bixby等等。
而在耳机端,大量的耳机依然使用的是触摸或者按键唤醒的方式来激活语音助手。物理触摸或者点按的方式与语音激活,两者体验的差距当然是不言而喻的。
Apple率先支持了语音唤醒,那么其他厂商是否能够跟上,又要如何实现。又有哪些技术细节需要去考量?
首先TWS 耳机本地唤醒词的应用由语音辨识及误唤醒处理 2 个部份组成:
1、唤醒词语音辩识(本地语音命令亦同)
唤醒词辩识需由前端信号处理把用户声音与背景声音的信噪比拉高以利在不同应用场景让唤醒词识得到最高唤醒率,我们列出从麦克风采集到用户的声音信息数据开始,至唤醒词识别结束。
依序完成唤醒词识别所需要的算法排列如下:
MIC→(LPSD 或 VAD)→(BF)→(NS 或 NR)→(KWD)
算法名称及参考供应商
LPSD 或 VAD, LPSD(Low Power Sound Detection), VAD(Voice Active Detection),参考供应商 DSPC,Seneory;
BF, BF(Beam Forming) 参考供应商 DSPC;
NS 或 NR, NS(Noise Suppression, Noise Reduction) 参考供应商 DSPC;
KWD, KWD(Key Word Detection) 参考供应商 Sensory, AI Speech, Nuance, Cyberon。
眼下市场上真正能提供出足够算力,使用单一蓝牙芯片就能集成上述算法并低功耗做到本地唤醒词功能的有高通的:QCC512x 及 QCC302x。
络达、瑞昱、恒玄等芯片产品建议搭配QuickLogic S3、Ambiq Apollo2、 Apollo3 或楼氏 IA-610、IA-611 智能麦克风芯片以达到在高算力低功耗要求下,满足本地唤醒词的功能。
所有的算法或芯片都必须以合法的方式取得使用权力及各种必要技术支持,这些供应商内 Quicklogic 的 EOS S3 是最早与宇恒互动 OVVP 算法做全面系统整合应用于实际客户产品上的,S3 芯片内部还带有 891 个可编程的Logic Cell,设计非常独特,可以满足特殊硬件接口的需要。
2、唤醒词或语音命令误唤醒误触发处理
误唤醒或误触发的定义:
TWS 耳机用户,非用户本人说出唤醒词或语音命令后,语音助手不回应或语音命令不动作,自己说出唤醒词后,却能唤醒或运行戴耳机用户的语音助手或语音命令。
市场上几个不同方案的说明:
2-1、基本处理
一般在唤醒词算法群内,BF 可以起到一定减低误唤醒率的作用,但与声源的方向有关,在双麦克风的间隔距离够远,产品结构声学架构调试恰当状况下 DSPC 的 BF 算法可以做到3db~6db。
这部份细节可以请教 DSPC 代理商聆感智能科技,他们有很专业的声学专家及实验室可以给需要的 TWS 耳机业者充分的声学相关设计服务。
2-2、使用 vpu 骨传导传感器
参考HUAWEI华为 FreeBuds2 Pro 应用 vpu(Voice Peak Up)。
vpu 严格说起来是使用一种 压电材料技术(因无法从datasheet内得知相关信息,只能从类似产品推论)的单轴加速度传感器(Voice Pick Up Sensor is a high performance accelerometer 引自Sonion Datasheet Description),主要是用来感测声带运动使用,是Sonion(声扬)公司的产品。
以-25dbv/g 这条输出强度线来看,最大带宽可以从 100hz 到 8khz 完整的含盖了人的声谱范围,整段频谱的响应并不平坦(特别是 3khz~5khz 刚好在人声的高频段),需要后段用加了高频负反馈的放大器整平。
这个传感器还有个优点就是低功耗(VDD=1.8V 时只要 55ua 电流),由于输出的是模拟信号,同时电平不足,拿来做 VAD 时若 A/D 采样的分辨率够,有机会可以不通过运放先做个 VAD 让传感器 Always On 感测到人声后才打开麦克风,这样可以达到降功耗的效果,但因 vpu 是模拟输出需要搭配芯片内的 A/D 转换器及算法,这还得看芯片的功耗换麦克风的功耗是不是划的来。
这类单轴骨传导传加速度感器在产品结构内的放置点,需要考虑用户使用过程中松脱后导致 vpu 输出声信息强度滑落的补偿问题。
HUAWEI华为 FreeBuds2 pro需要支持骨声纹支付,所以要较好的保证取到能做声纹辩识用的声音,在 vpu 保证不了足够的动态范围条件下,声带宽范围的放大器是免不了的,这样在功耗,器件数量及组装工艺,测试难度上都会有相当的增加。
加了高频负反馈放大器后拉升了低频加大了动态范围,同时也把人体运动低频信号又给拉了上来,vpu 自带天然的高通滤波效果又变差了,后面还又要加上高通滤波算法,过滤掉因人体运动引起传感器机械瞬态变化引发的多次谐波干扰,另外在通话,音乐应用场景下喇叭振动的串扰问题还得要处理解决。