图 3 语义搜索示例
图 4 中展示了多模态搜素问题的定义,被检索的对象是视频集合及其附属的 meta 信息,而输入的模态可以是文本、图像、音频或者视频,甚至哼唱影视剧中的主题曲片段或者讲出经典的台词都可以用于做检索 query。
图 4 多模态搜索示意图
图 5 展示了更多的搜索示例,从搜索结果中我们可以看出,更深入的用机器去理解视频内容信息可以显著的提升用户搜索的满意度。图 6 是多模态搜索在影响的 query 集合上对搜索命中率以及点击率 CTR 的提升效果,数字结果也证实了在视频搜索中应用内容理解相关技术能够带来的作用。
图 5 多模态检索示例