快手的语音功能受限制怎么办,快手为什么不能说语音了

首页 > 车主 > 作者:YD1662023-10-31 05:00:28

对视频内容的理解其实是非常难的,这个里面我做了两个比较有意思的事情。

第一,我们强调音频和视觉的多模态综合的建模,而不是仅仅是单独的视觉或者音频,视觉和听觉两种媒体的融合,会是未来一个非常重要的事情。

第二,在工业界做的事情和在学术界做的事情有很大不同,我们有非常多的用户数据,这些用户数据是不在传统多媒体内容研究范畴里面的,但是工业界可以很好地利用这些数据,更好地做内容理解。

快手的语音功能受限制怎么办,快手为什么不能说语音了(9)

快手的语音功能受限制怎么办,快手为什么不能说语音了(10)

给大家举个例子,一个男子表演口技的视频中,如果关闭声音,仅凭画面信息,我们并不知道他是在做什么,可能会觉得是在唱歌或唱戏。这说明如果仅仅是通过视觉的话,你可能无法获得真实的信息。我们对世界的理解一定是多模态的理解,而不仅仅是视觉的理解。

像这样的视频在快手数据库中有70亿,想要理解这么多的视频内容,必须借助多模态技术。所以我们在这方面也做了非常多的工作,从文本、视觉、听觉角度去做了很多单模态的建模,包括多模态的综合建模、有序与无序,以及多模态特征之间怎样进行异构的建联,在很多任务内部的分类上也做了改进。

第二点需要强调的是,像ImageNET等很多的学术界研究内容理解的任务有非常好的标注数据集,但是这个数据集对于工业界来说还是太小,且多样性不够。我们平台每天有1.3亿多用户以及超过150亿次的视频播放,这个数据是非常大的。如果有150亿的标注数据,做算法就会有很大的帮助,但是现实上是不具备的。

快手的语音功能受限制怎么办,快手为什么不能说语音了(11)

快手的语音功能受限制怎么办,快手为什么不能说语音了(12)

上一页1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.