然后模型生成方式这里选择 GPU。高级参数设置中,有独显的选择独显,没有独显的则选择核显,我这里就直接选择影驰的 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡就行了。
全部选好后点击 OK 进入二级页面,这里的操作步骤和 Buzz 比较类似,我也给大家都标注了中文注释,一看就会。选好后点击右下方的 Transcribe(转写)按钮即可。
对比测试
测试环节我们将进行四组不同语种、语速、类型的音源文件比较,对比内容为识别 转写速度和识别准确率,比照对象则是以 Buzz 软件 i9-14900K 的 CPU 处理阵营和以 Whisper Desktop 影驰 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡的 GPU 阵营。
第一次先看中文识别效果,我们在网上下载了一段锤子科技当年在鸟巢举办的新品发布会上,老罗对 TNT 功能进行演示的视频片段,然后转换为去掉观众席声音的 5 分 30 秒 MP3 音频文件,这段中文语音中混杂了中文、英文和数字,比较考验 Whisper 的综合实力。