快手的语音功能受限制怎么办（快手为什么不能说语音了） - 原点资讯

对视频内容的理解其实是非常难的，这个里面我做了两个比较有意思的事情。

第一，我们强调音频和视觉的多模态综合的建模，而不是仅仅是单独的视觉或者音频，视觉和听觉两种媒体的融合，会是未来一个非常重要的事情。

第二，在工业界做的事情和在学术界做的事情有很大不同，我们有非常多的用户数据，这些用户数据是不在传统多媒体内容研究范畴里面的，但是工业界可以很好地利用这些数据，更好地做内容理解。

快手的语音功能受限制怎么办,快手为什么不能说语音了(9)

快手的语音功能受限制怎么办,快手为什么不能说语音了(10)

给大家举个例子，一个男子表演口技的视频中，如果关闭声音，仅凭画面信息，我们并不知道他是在做什么，可能会觉得是在唱歌或唱戏。这说明如果仅仅是通过视觉的话，你可能无法获得真实的信息。我们对世界的理解一定是多模态的理解，而不仅仅是视觉的理解。

像这样的视频在快手数据库中有70亿，想要理解这么多的视频内容，必须借助多模态技术。所以我们在这方面也做了非常多的工作，从文本、视觉、听觉角度去做了很多单模态的建模，包括多模态的综合建模、有序与无序，以及多模态特征之间怎样进行异构的建联，在很多任务内部的分类上也做了改进。

第二点需要强调的是，像ImageNET等很多的学术界研究内容理解的任务有非常好的标注数据集，但是这个数据集对于工业界来说还是太小，且多样性不够。我们平台每天有1.3亿多用户以及超过150亿次的视频播放，这个数据是非常大的。如果有150亿的标注数据，做算法就会有很大的帮助，但是现实上是不具备的。

快手的语音功能受限制怎么办,快手为什么不能说语音了(11)

快手的语音功能受限制怎么办,快手为什么不能说语音了(12)

快手的语音功能受限制怎么办,快手为什么不能说语音了