图 6 多模态搜索实验效果
近两年深度学习在搜索推荐领域中得到了广泛的应用,我们不禁问自己一个问题,深度模型加向量化检索是否可以解决掉多模态 / 跨模态的检索问题呢?这里做过多年搜索的老兵都有一个清晰的认知,搜索不单是一个技术,更是一个业务,用户对于每一次搜索都有比较清晰的预期。学术界比较喜欢端到端的解决方案,但受制于可解释性和可控性的问题,企业级视频搜索引擎很少采用单一方案,比较可行的做法是将其它模态的信息通过降维转换到文本模态。
图 7 是优酷视频搜索引擎的主体架构,主要包括以下几个关键部分:
- 视频理解与分析,对视频内容做细颗粒度拆解,将图像、视频动作、人物、声音、背景音乐等信息通过检测和识别等手段做标签化,通过上述手段完成对视频内容降维到文字模态的转换
- 视频内容逐帧向量化,为保证召回兜底,采用 query、视频向量化处理,作为文字模态召回的有益补充
- 搜索查询意图识别,用户在使用搜索时是有状态的,不同上下文环境下同一个查询词表达的意图不尽相同
- 搜索排序, 排序对于搜索引擎是个至关重要的模块,既有算法技术的一面,更有业务属性的一面,这里要兼顾平台视角和用户视角,单纯的 CTR 优先或者业务干预优先都是不可取的,需要排序的设计者能够从机制设计的视角来思考
图 7 视频搜索引擎
2.2 视频推荐
视频网站对标国际一线厂商的话,诸如 Netflix 和 YouTube 这些网站,推荐在其中都扮演着至关重要的作用,以 Netflix 为例,推荐系统贡献了超过 70% 的视频播放量,而在国内的三家长视频网站却不尽然,推荐的占比都在三分之一以下。中国大陆的用户和欧美的用户不同,国内的观众在电视剧上呈现出头部过于集中的现象,这与内容的供给方工业化程度低以及电视剧粗制滥造现象泛滥有直接关系,同时还受到主要电视台、视频网站的排播和宣推策略的影响。推荐和搜索类似,最擅长的是在信息爆炸的情境中解决信息过载的问题,如果视频节目候选集合比较小的情况下,推荐是否就失去了用武之地呢?回答是否定的,如抖音、快手这样的短视频 APP,因每天上传量都超过百万,甚至千万,人力所不能及,只能采用机器算法分发;但一部电视剧的宣发要面对的用户也是超过亿的量级,从货找人的维度,人力也无法处理,如何高效的利用数据产生生产力对于长视频网站也是一项核心竞争力。
图 8 是目前优酷推荐的算法架构,在视频推荐的问题上如何提升用户和推荐系统之间的信任度是我们面临的核心问题,因此推荐系统的智能化在去年被提到很高的优先级。从图中我们可以看出,目前的主要召回方式分为如下几种:
- 行为协同过滤,目前最主要的召回方式,由于版权视频的头部效应,这会导致更为严重的哈利波特现象
- 向量召回,也是一种被视频网站广泛应用的算法,不论是深度网络模型还是图嵌入方法都能够有效的缓解推荐冷启动的问题,但模型的可解释性以及有监督学习 label 的热度集中效应仍然是很有挑战性的问题
- 标签召回,以前用途比较广泛,但受制于准确性的问题,目前多家厂商都在弱化这一路匹配;Netflix 对于版权长视频雇佣专业内容运营来标注 content codes,在候选集不大的情况下比较好的解决了标签准确性的问题
图 8 视频推荐架构
视频推荐系统由于其基于统计机器学习算法的局限性,不可避免的出现头部过热甚至明显违背常识的推荐结果,推荐理由和交互式推荐都是缓解这一现象的有效方法。而运营的经验知识与数据算法间的有机结合将是国内视频网站推荐系统的重要演化方向,单纯的效率优先与头部新热剧集中的情况会形成较大的冲突,而推荐系统的智能化对于视频内容的理解提出了明确的需求;因为每个人喜欢同一个视频或者同一部电视剧的原因不尽相同,或者是某流量明星的粉丝、或者是喜爱某种题材、甚至是某种场景氛围。
图 9 给出了基于多模态分析技术的视频打标签示例,从这个例子我们可以看出,基于视频、音频、文字多个模态可以显著的提升标签分类的准确率,其缺点就是计算量较大,多个模态端到端的融合学习是一个技术难点。
图 9 多模态视频打标签
2.3 视频数字资产化
目前各个视频网站处理视频数据的颗粒度多数情况下都是 video 本身,能通过深度模型、图模型等方法学习出一个 video vector 来刻画视频特征空间是近年来新兴起的一种向量化方法。然而这对于视频媒资库的智能化需求而言是远远不够的,内容的二次创作、三次创作对于视频内容的解构有很高的要求,内容理解和拆解的颗粒度决定了智能媒资库对于视频业务的新价值。