速记员这个职业大家都不陌生,他们能在各类场合高效迅速地将演讲内容转化为会议记录。如果把速记员变成软件,其核心功能就是语音识别 转写。这类需求使用场景广泛,在线视频 AI 字幕、线上会议 / 网课的速记、生肉番剧 / 电影 / 歌曲字幕的制作和转译、通话录音等等,都会用到。
速记的精髓在于速度,快最重要,但在很多场景中,无论是人力还是软件,都无法达到超快的转写速度和准确率,而满足专业用户高效转写需求的工具,往往需要付费获取。如某品牌的语音转写畅想包订阅费用是 79 元连续包月,599 元 / 年;另一款则需要注册企业用户,然后找客服咨询费用标准,据说标准版费用是每个用户 199 元 / 年,高级版费用则是每个用户 299 元 / 年。
对企业 / 专业用户来说,付费订阅软件一定最佳选择,它们的速度快、无需高性能硬件成本(GPU)、准确率高、支持人工精校,肯花钱甚至可获得一对一的专属客服支持,但如果只是偶尔使用性价比就不是很高了。
另外,这些订阅软件的 AI 服务,通常需要用户将原始的视频或音频文件上传到服务器和全程联网,且通过厂商的专业设备在云端运行,如果视频或音频文件中包含个人隐私 / 商业等内容,显然也不太合适。
关于 Whisper
那有没有一款完全免费开源,不需要联网,完全依赖本地硬件算力去跑语音识别和转写,准确率还不低的语音转写软件呢?或许喜欢关注 AI 领域的朋友早就有了答案,它就是来自的 OpenAI 团队所开发的 Whisper。从官网的介绍文章日期上不难看到,Whisper 早在 2022 年 9 月就已经推出,但时至今日它依旧是最好用的免费语音转写工具。
说它最好用原因有三点,一是它的语种支持广泛(99 种),二是转写速度超快,三是识别准确性很高,且只需要一张高性能显卡就能办到,这几点我都会在后面的体验中给大家详细分析。
先给大家简单科普下 Whisper,它是一个多模态语音识别模型,基于 Transformer 引擎所打造,通过了 68 万个小时的语音数据训练,支持 99 种语言(包括中文),在具备语音识别能力的同时,还支持语音活性检测(VAD),声纹识别,说话人日志 (Speaker Diarization,即在多人对话场景下检测不同人物的说话时间段),语音翻译(翻译为英文),语音对齐等能力,其英文识别准确率非常强悍。
而上面所提到的 Transformer 引擎,恰好 NVIDIA 在 RTX 40 系列显卡上引入了一个针对 AI 计算的新硬件特性,具体来说 RTX 40 系显卡增加了对 FP8 低精度浮点数的支持,基于 Transformer 引擎,相比 AI 训练常用的 FP16 半精度浮点数来说,动态范围相当,在相同加速平台上的峰值性能显著超越后者,但 FP8 更少的位数有利于减小空间占用和提升网络利用效率,允许模型拥有更多的参数量,从而算得更快。
有意思的是 OpenAI 迄今为止推出的大模型,包括大家耳熟的 GPT,Sora.,Dell 以及今天提到的 Whisper,都是基于 Transformer 模型所开发,这类模型的参数量巨大,并利用了 Transformer 模型所拥有的 Scability(可扩展性)特性,可以不断叠加模型的参数和神经网络层数,获得更精细和强大的 AI 能力。
此外,OpenAI 团队也注意到了 Transformer 模型的自注意力机制,使其能够理解序列中任意两个词元间的联系并无视距离,提高输出的质量和连贯性。自注意力还可扩展为多头注意力,允许模型将数据信息切割细化为矩阵(头),然后对每个矩阵(头)分别进行自注意力计算,最后合并输出。
在这两种机制下,Transformer 模型捕捉的信息类型更全面,学习能力和表达能力也更突出。正是由于 OpenAI 将 Transformer 模型作为产品发展平台的策略,以及 RTX 40 系显卡对 FP8 Transformer 引擎的支持,才使得 RTX 40 显卡成为普通消费者现阶段体验 Whisper 最合适的硬件。