出处 | AI前线
编辑 | Vincent
作为 4G、5G 时代最丰富的信息承载媒介,视频可以传达出的信息量远远超过声音、图像等单一渠道,浩如烟海的视频资源中蕴含的大量信息也还远未被充分挖掘。对于视频公司来说,如何将 AI 技术与海量视频资源结合,将成为一个潜力巨大的研发方向,带来的价值不可估量。在国内 AI 领域,多模态技术的研发历史虽然不久,但其带来的价值早已得到了充分验证。
本文中,来自优酷算法中心负责人王晓博将为我们解析,优酷是如何利用多模态技术,最大限度地挖掘视频信息,创造更大的价值。剪片子又快又好、还能制作鬼畜视频的 AI 视频剪辑师到底是如何做到的呢?让我们来一探究竟。
优酷作为一家超过 12 年的视频网站,其最大的数字资产便是存量数亿的视频,这不仅包括平台购买的版权 OGC 视频,更多的是用户上传的 UGC 视频。视频作为 4G、5G 时代信息最便捷的载体,给用户带来极大便利的同时也给各个互联网厂商带去了更大的挑战,富媒体信息的存储、计算以及分发对比单一的文字信息要困难很多。
图 1 视频处理流程
如图 1 所示,不论是优爱腾这样的长视频网站还是抖音、快手、西瓜这样的短视频 APP,其视频内容的处理都要经历类似的几个阶段。如何让机器理解视频内容信息是各个厂商都要面对的技术问题,内容理解并没有标准定义,但将视频本身作为处理单元的能力已经无法满足用户日益增长的内容需求。
优酷在多媒体信息处理方面积累了多年,为了更好的支持视频内容理解及智能生产的需要,我们在 2018 年从算法中心抽调核心骨干力量组建认知实验室,主要聚焦在计算机视觉、视频结构分析与智能生成、智能影像处理以及视频质量四个方向。这篇文章将从优酷这一企业级应用的视角来介绍多模态内容理解在我们实际线上系统中的应用,文章结构如下:首先介绍简要多模态分析技术,然后结合优酷给出若干主要应用场景,接下来对多模态技术中一些难点做些剖析,最后是对未来的展望。
1 多模态分析技术简介模态是个专有名词,在计算机信息处理的场景下,专指人接受信息的方式,包括视频、图像、文字、语音等不同的手段。多模态学习按照其所研究的问题大致分为如下几个方向:
- 表达学习:实际用途很广,主要将多个模态的信息转换为实值的向量,多用于召回、相关性计算以及预估特征
- 模态映射:影视剧中的剧情详细描述如何能与视频切片对应起来,在跨模态检索中应用较多
- 模态对齐:将图像中的实体与文字中的实体对应起来,这在视频语义检索中十分有用
- 协同学习:每个模态的标注任务都很挑战且成本高企,相对而言,文字模态的标注成本是比较低的,而如何能够在缺乏标注信息的模态数据上利用其它模态的数据进行训练对于节省成本共享信息非常有帮助
2.1 视频搜索
信息检索的技术发展已经走过了几十年,而视频内容检索在企业里之前一直停留在关键字层面,主要检索的信息来源是视频的标题和描述,与文章、网页的检索架构区别不大,其原因除了技术上的挑战外,还有用户的需求通过关键字检索基本能够满足。
图 2 呈现了目前优酷的主要业务模块构成以及其搜索索引库的内容类型及品类,单纯的基于标题和描述作为被检索文本会遇到如下困难:
- 用户在上传 UGC 内容时,常会写“test“、”呵呵“这类无明确表意的词,或者文字信息与视频内容不相符
- 用户查询词意图呈现出多元化,即使是版权视频的搜索也不再集中于节目名字的搜索,社交与互动的需求逐渐增长
- 内容二次创作型的的用户对于视频内容语义检索的诉求显著增加,独立检索词数量近两年增长迅速
图 3 是一个比较典型的视频素材寻找类的查询词,图中给出的搜索结果是基于文字模态来进行的,明显可以看出这与用户的预期之间的差异,索引的内容并没有体现出对视频内容本身的理解。