点击“ ”号选择文件后,会弹出以上菜单窗口,需要依次选择模型类型、模型大小、处理方式以及识别语言,然后在底部的导出选项中选择字幕文件类型。
这里我给大家做了一些中文注释,模型类型直接选第一个 Whisper 就好,体积方面理论上转写英语音频选择 Small 模型就能有不错的效果,中文音频则需要 Medium 或 large 模型,处理类型选择转写,因为转译是将识别结果翻译成英文,而且只能翻译成英文,局限性较大。
按理说对排版有要求一定要勾选文字时间戳选项,否则识别结果就会挤在一起,但是目前 Buzz 的文字时间戳选项有 BUG,勾选后不仅识别速度慢不少,识别结果每行几乎只有一个单词或单字,就像上图这样,好在不勾选它也会对每句话进行分段,最后导出文档类型大家按需选择。
全部选好之后点击右下角的“Run”按钮即可运行,识别过程中 Buzz 会给出当前的识别进度百分比,直到完成转写。