近来,AI技术开始在图文视频行业大放异彩,给图文视频生成技术带来了革新。
在2021年百度的大脑图文转视频技术(VidPress)问世,该技术能够由AI自动剪辑生成视频,只需要一键输入上传Word稿件、新闻网址即可在短时间生成视频。
该技术是业界首个支撑通用型、大规模的全自动视频生成技术。
而AI绘画也开始出现并快速发展,从最早的AI上色网站Paintschainer、到谷歌的Disco Diffusion、还有中国的Tiamat,AI在绘画领域也“开卷”。
近期Novel AI也在二次元图片生成领域有了飞跃式进展,人物绘画技术取得了很大的进展,最近大火的番剧《电锯人》也运用了AI技术Midjourney来制作,还掀起了AI绘画即将取代新人画师的舆论风潮。
而如今,AI技术生成视频也有了新的成果:Meta AI推出了Make-A-Video,一种通过时空分解扩散模型将基于扩散的T2I模型扩展到T2V的有效方法,是最先进的人工智能系统,可以利用给定的几个词或几行文字生成一个几秒钟的短视频。
Make-A-Video释放你的想象力Meta首席执行官Mark Zuckerberg详细介绍一个短视频的制作,“我们给出的描述是这样的,‘画自画像的泰迪熊’、‘戴着针织帽的树懒宝宝在探索笔记本电脑’、‘在火星上着陆的宇宙飞船’以及‘在海中冲浪的机器人’。生成视频比生成照片难得多,因为除了正确生成每个像素,Make-A-Video系统还必须预测像素如何随时间变化。”
据了解,Make-A-Video由三个主要部分组成:
1. 基于文本图像对训练的基本T2I模型
2. 时空卷积和注意层,将网络的构建块扩展到时间维度
3. 时空网络,由这两个维度组成时空层,以及T2V生成所需的另一个关键元素:用于高帧速率生成的帧内插网络
相对于百度它对文本生成视频技术做出了一些升级,百度的大脑图文转视频技术是通过互联网素材构成的,视频生成服务依靠丰富大量的素材库才能完成素材的聚合和视频的生成;而它能够完全用AI取代内容生成,它不需要互联网素材库也能生成视频。
Make-A-Video研究建立在文本到图像生成技术最新进展的基础上,该技术旨在实现文本到视频的生成。
该系统使用带有描述的图像来了解世界的样貌以及图像是如何被描述的,它还能使用未标记的视频来了解世界是如何运动的。
因此它能给你发挥想象力的空间,不需要互联网上的素材,只需要几句话或者几行文字就可以生成奇思妙想且独一无二的视频。
Make-A-Video开创了T2V新一代的最新技术。
使用函数保持变换,在模型初始化阶段扩展了空间层来包含时间信息;扩展的时空网络包括新的注意力模块,可以从视频集合中学习时间世界动态。
除了用文本生成视频的功能,它还能将运动添加到单个图像或者两个图像之间填充运动;还可以根据原始视频创建变体,为视频添加额外的创意。