说到“打工人”的痛点,好好开会肯定是其中之一。
过去几年线上办公需求的井喷,让“云会议”走入大众视野。然而随着更多人带着手机电脑走进会议室时,此起彼伏的啸叫声,预示着新的战场已经打响。
这也让腾讯会议面临一个新挑战:诞生于线上的腾讯会议,如何走入线下?
01
市场迎来了新的机遇和挑战
会议室要有好的体验,离不开好的会议室硬件。过往的会议室往往是投影和麦克风的组合。受制于会议系统和品牌,只能在公司内各个会议室之间进行拨号开会,投影也主要是为了本地演示。一旦面临和外部客户交流的情形,就会捉襟见肘,设备接入调试繁琐、屏幕显示差、收音范围窄等难题层出不穷。
“随时随地,一键开会”重塑了协同办公理念。习惯了手机屏、电脑屏等“小屏”开会的用户,同样期望能够在“等比放大”的大屏上使用腾讯会议。
这是腾讯会议的机会,也是会议大屏厂商的机会。
2020 年 9 月,腾讯会议发布了基于会议室的软件系统腾讯会议Rooms,让厂商可以把腾讯会议装到会议室硬件大屏里。而且,为了保证Rooms的音视频质量,腾讯会议同步推出了认证标准,所有搭载Rooms的硬件设备必须通过50个测试项,近200个测试指标才算合格。
但事情远没有想象中这么简单。
会议大屏的硬件技术早已成熟,4K、8K这样的高清显示器不在话下。但当腾讯会议Rooms连接到一个个现成的硬件设备时,音视频的效果却参差不齐。
事实上,第一批进行标准认证的厂商,通过率为 0。
音视频能力建设本身是一个漫长的技术周期,单纯做远场拾音,就是一块非常难啃的硬骨头。
“我们可以为行业做些什么?”这个问题,很长一段时间萦绕在腾讯会议负责人吴祖榕脑海中。
腾讯会议决定自己来做验证。
02
给会议室里的硬件设备装上顺风耳
任务落到了腾讯会议旗下天籁实验室身上。
在腾讯会议成长过程中,天籁实验室的实时音频技术发挥了巨大作用,是数亿用户得以清晰流畅开会的幕后功臣。直接点说,解决复杂场景里的开会难题,是天籁实验室的拿手好戏。
但会议室这种线下场景仍然是一个棘手的问题。
据天籁实验室总监余涛介绍,过去腾讯会议客户端上的音频算法主要解决的是“近场拾音”问题,说话人距离手机、耳机、笔记本话筒的距离一般不会超过 60 厘米,信噪比普遍偏高。
“会议室面临的挑战是在房间声学的场景下的远场拾音,复杂度远超近场”,余涛表示。
实际情况也正是如此,房间尺寸的不同,人们坐姿、远近、方位不同,拾音都会发生变化,桌子上放个纸巾盒、水杯,也可能会反射遮挡讲话人声音,这样的复杂声学场景,导致远场采集的语音信噪比极低。
此前腾讯会议积累的近场音频算法处理经验,在会议室里不适用了。
“必须要和设备厂商紧密合作,在麦克风采集的声音源头就使用天籁算法进行处理,这样才能从根本上解决问题”,腾讯会议天籁实验室主任商世东说。
“我们要给会议室里的硬件设备装上顺风耳。”
天籁语音模组项目正式成立。对于专攻软件算法的腾讯会议而言,无疑是一场从零开始的冒险。
03
没有标准,就定义标准
Damico是天籁实验室第一个懂硬件的人,彼时刚刚加入腾讯会议。
“最开始,我们设想的模组是可以像USB一样即插即用的硬件方案,只要设备有接口就能使用,这样可以大幅降低硬件厂商使用音频技术的门槛”。
Damico开始去寻找能生产模组硬件的供应商。咨询了一圈下来,几家潜在合作方都不愿意合作,原因在于单纯卖USB模组利润太低,除非天籁愿意“一上来就支付几百万的开发费用”。
这样的成本显然过于高昂。
天籁团队也同步盘点了市面上主流的大屏硬件,发现各家厂商的设计和尺寸空间差异非常大,标准也不统一。“USB硬件模组的形式,无法给每款产品都打造出最好的音频方案。”
几次碰壁之后,天籁实验室总监余涛下定决心。“干脆,我们直接开放原理图和印刷电路板PCD(Printed Circuit Design ),把语音模组设计方案给到大屏厂商,直接做进产品制造生产阶段。”
但这个方案依然逃不过标准化问题。“每个产品能给我们的尺寸都不一样,有的是大屏,有的是扩展麦,有的两边放喇叭,中间放麦克风。”Damico说。
天籁团队的解决方案是“定死”麦克风的相对位置——麦克风之间的距离是2厘米,摄像头中间的距离是140毫米,圆形麦克风阵列的直径是105-120毫米。在此基础上,最终语音模组的形态有大有小,但标准统一了。
Damico表示,“硬件设计的所有标准、结果都是我们把控,相当于给视频会议硬件厂商的一条龙服务”。
04
在跷跷板上找声学平衡
回过头来看,模组方案的设计似乎是“一帆风顺”。电路建版、芯片选型、仿真环境训练算法……一切都在有条不紊的进行中。开始仅三个月,团队就拿出了模组方案的第一个版本出来。
天籁实验室负责工程的Vincent表示,“当时拿到模组的时候非常激动,立马去跑了一下认证标准,结果发现自己定的标准自己过不了,还差好大一截。”
兜兜转转,问题又回到了算法这里。
办公室场景形态各异、材质复杂,会对声音造成很大反射,远端听起来就会有嗡嗡的杂音。
如何放大来自不同位置的有效语音,减少其他不该有的噪音,成为了天籁实验室算法丁宁头痛的问题。“就是要在各种跷跷板中找平衡。”
混响去的太多,就会听起来不连续;去的不够,那语音就会不清晰。
降噪也是如此。传统音频厂家做噪音处理的时候,只能线性处理稳态的噪音,例如会议室安静下来之后风机的声音。而拖凳子、咳嗽等等瞬态噪声就很难解决。
针对这些噪声,也需要反复调节降噪幅度,不够会有刺耳声,但太过又会导致部分语音被一起消掉。
最终团队决定,引入每帧数百M计算量的大模型进行知识蒸馏,来实现去混响、降噪等声学优化。为了得到更好的效果,模型调整非常细致。在模型稳定之前,一天一个版本都是家常便饭。
2021年7月,天籁语音模组方案正式向市场推出,实现了12米超长距离拾音,消除超过300种会议噪声,在双讲、回声消除等方面实现了突破性升级,率先授权开放给腾讯会议Rooms专款硬件大屏使用。
05
天籁inside走进更多会议室
至此,天籁模组有了自己的品牌标识。跟大屏厂商一起,“腾讯天籁inside”正在走进更多会议室。
作为会议平板的头部厂商,MAXHUB就是腾讯会议重要的合作伙伴之一。
2021 年,MAXHUB就开始接触到腾讯会议天籁语音模组。“与市面上其他产品相比,天籁提供了一套覆盖硬件软件的全链路解决方案,在降噪和声音还原方面非常优秀”,MAXHUB产品总监熊凯表示。
也就在这一年,MAXHUB和腾讯天籁开始了合作。2022年,MAXHUB推出了V6音视频专业款,全面搭载了腾讯会议天籁语音模组,整体的音视频表现获得了市场的一致认可。
众所周知,声音在空气中传播,距离每增加一倍,声压级就会衰减6dB。这也意味着距离越远,信噪比就会越来越差。虽然会议平板的拾音能力在逐步加强,但要做到等同于面对面的清晰对话感觉,目前的能力仍然不够。例如在大尺寸的会议室,仅靠一块大屏难以做到全场高质量拾音。
MAXHUB给出了新的解决方案——桌面麦克风方案。2023 年,MAXHUB发布全新的无线全向麦 BM51,基于腾讯天籁inside音频解决方案,将 MAXHUB创新的连接技术、硬软件工业设计交互能力和天籁Al语音技术方案做了集大成的融合,能够在各类复杂、恶劣的声学场景下,提供清晰、流畅、安静的音频体验。
耳目达也是“天籁语音模组”方案的尝鲜者。耳目达中国区市场负责人成诚回忆,早在2021年4月,天籁模组方案还在调试阶段,他无意间看到了一段12 米拾音的测试视频,立刻联系了腾讯会议,这也成为双方合作的起点。
与天籁合作的级联式麦克风音箱A21T,能够有效消除声学混响、回声和包括键盘、空调噪音在内的300多种会议室常见噪声,通过分布式拾音,支持扩展更大会议空间,实现简便灵活的会议麦克风部署。
手握这款拳头产品,几家行业头部公司相继成为了耳目达的客户。作为一家2018年成立的会议硬件创业公司,耳目达2020年刚开始商业化时,整个公司只有20多人。三年后,和天籁合作的产品成为业界爆款,也让公司的业务量大增,如今公司员工已经超过200人。
目前天籁语音模组的商业化正在快速推进中,市场占有率靠前的会议大屏厂商如Newline、海信、皓丽、TCL等厂商都和天籁达成了合作。如今,腾讯会议认证的硬件合作伙伴超过30家,覆盖产品型号超过120款。
对腾讯会议团队来说,这场马拉松长跑开始了加速度。