而AI更方便利用海量的素材,做成模板、量化生产,而且可以实现任意技术的组合,能制作出很多不同风格的视频。
AIWorks可以实现根据剧本自动搜索素材,智能生成符合某个话题的视频集锦,支持不同画面的不同输出方式,如横竖屏效果、自动卡点配乐、台词集锦、CP 等。
比如台词搜索功能,涉及到的技术主要包括人脸识别、人脸表情等属性识别、场景识别、服饰和职业识别、台词 OCR、NLP、声音和音乐检测、音乐节拍点提取、镜头切分、专场特效、视频滤镜等模态。
台词分析是很好的剧情统计解决方案,对与智能创作也非常有帮助。
漫威老爷子在他导演的100 多部大片中,均有几秒钟的客串镜头,如果想剪辑出只有他出现的镜头并拼接成短视频,纯人工剪辑师的工作量和工作难度有多大可想而知。但是AIWorks通过人物识别,可以在1分钟内完成,这也是AI的优势之一:AI可以在海量的素材中,精准找到我们想要的特定内容。
我们可以看到,上述智能创作应用了非常多技术,包括美学的,镜头切分的,人物识别的,表情分析的,音乐卡点的等等。一个完整的智能创作解决方案,基本上用到了目前所有的AI技术。
有很多人问过我,AI是不是会取代剪辑师?我觉得这是永远不可能的。比如一些复杂场景的画面,AI很难去理解其中的含义。人类的创造力非常强,AI取代不了高水准的艺术家、创作师、内容制作群体,但是AI可以帮助他们提高制作效率,创作出高品质的作品。
爱奇艺AI竞赛多模态技术和应用难点
最后我介绍一下爱奇艺“多模态视频人物识别挑战赛”以及iQIYI-VID数据库。
为什么多模态是必要的?通过上述介绍,可以发现,单纯的人脸识别,或者声纹模型,或者五官定位,都只是单一的问题。而我们希望AI能为我们提供一些solution,是技术的综合使用。
目前国内多模态研究的发展速度非常快,并且取得了一定的进展,但是还有非常大的发展空间。多模态信息之间怎么融合,如何训练、加速等问题还在探索当中。
因此爱奇艺从2018年开始举办多模态人物识别竞赛,并发布了视频数据库iQIYI-VID,希望引起学术界对人物识别的持续关注和研究。借助iQIYI-VID数据集,可以拓展人脸识别技术,推进多模态人物识别技术创新,以解决大数据时代实际视频媒体人物信息结构化的需求,把更多的学术成果转化成实际中的生产力。
爱奇艺多模态视频人物识别挑战赛
今年,爱奇艺与ACMMM联合举办多模态挑战赛,向全球参赛者开放最接近实际媒体应用场景的视频人物数据集(iQIYI-VID-2019)。
数据集包含复杂场景下10000名明星人物、200小时、20万条影视剧与短视频。经过严格的人工标注,抽样精度大于99.8,有利于评价模型性能,也非常有挑战性。
iQIYI-VID数据集在业界难度比较大,能够给大家提供更好的发挥空间,并且参赛者在后续也可以发出很好的论文。去年Arcface的一个团队参加了爱奇艺多模态视频人物识别挑战赛,取得了第一名,并且今年发表了一篇论文,中了2019 CVPR的Oral Paper。
参加本次挑战赛,能在视频人物识别算法上利用头部、声音、人体等多模态特征融合信息和更少的模型,进一步将精准度提高,能够在视频人物身份识别技术上取得重要突破。
本次大赛,目前已有来自世界各地的235支队伍参与报名。参赛队伍有来自Nvidia、ReadSens、百度、科大讯飞,网易等公司的企业团队,也不乏来自UCL、埃克塞特大学、清华大学、中科院等海内外知名学府的高校团队。
iQIYI-VID-2019已于4月29日开放结果入口,具体上传方式参见Help_Document。文档下载链接:http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7&tabIndex=1
本次大赛的报名截止日期为5月10日,欢迎有志团队把握好时间,报名参与。报名链接:http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
,