快手无法发语音消息怎么回事,快手为什么发不出去语音了

首页 > 车主 > 作者:YD1662023-10-31 05:10:32

基线模型和 SAVC 模型的自然度平均意见得分如图 4 所示。通过 Griffin Lim 算法重构的语音得分比 LPCNet 重构的语音得分差很多。这是因为 Aishell-1 语料库是语音识别数据集,由移动电话记录。音频中存在许多噪声,例如混响,信道噪声等,这些均不利于 Griffin Lim 算法从频谱参数中预测相位,导致合成语音质量变差。但是,LPCNet 声码器在训练时对数据进行随机加噪处理,增强了数据的多样性,因而对带噪信号更鲁棒。尽管后端声码器都是 LPCNet,但 MSVC 模型的自然度主观意见得分低于 GST-VC 模型和 SAM-VC 模型。因为说话人编码器中建模的说话人空间和 MSVC 模型是完全独立的,MSVC 模型只对训练过程中遇到的说话人向量进行建模。在预测阶段,对于已经训练好的 MSVC 模型而言,新的目标说话人向量是是完全未知的信息,因而声学后验概率和新的说话人向量之间的可能存在不匹配,这导致了语音质量的下降。GST-VC 模型和 SAVC 模型之间自然度主观意见分数非常的接近,这也是很容易理解的,因为这两个模型中用到的说话人向量均是由语音转换模型预测的,并且它们都使用 LPCNet 重建波形。

下面的视频展示了 SAVC 模型和基线模型基于单样本语音转换的效果,输入语音和目标说话人语音均来自集外说话人。视频中依次展示了男声变女声,女声变男声的效果。更多 demo 可以参见作者展示的链接。(https://vcdemo-1.github.io/SAVC/savc.html)

应用

变声技术在快手有丰富的应用场景,比如短视频编辑,直播变声,个性化定制用户音色等。而通过单样本语音转换复制音色,不仅可以大大降低对训练数据库的要求,而且也可以显著节省计算资源。基于单样本的语音转换是快手在语音交互领域的一个重大技术突破,有望引领变声应用的新潮流。

快手 MMU 介绍

快手MMU(Multimedia understanding)部门负责快手全站海量音视频、直播的内容理解,为公司提供500 智能服务,应用在搜索、推荐、生态分析、风险控制等诸多场景,团队拥有业内最顶尖的算法工程师和应用工程师,持续招募相关领域技术人才。

,
上一页123末页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.