在此基础上,大型预训练模型的发展重点开始向横跨文本、图像、语音、视频的全模态通用模型发展。通过计算策略、数据调用策略、深度学习框架等方法提升模型效果成为目前研究的进展关键。与此同时,覆盖更多模态的训练数据同样值得关注。例如,MultiBench提供了包括10个模态的数据集,PanoAVQA提供了360度视频数据,X-World提供用于自动驾驶的各类模态数据。目前,华为诺亚方舟已经开源了全球首个亿级中文多模态数据集“悟空”。
跨模态大型预训练模型的代表包括:开启了跨模态预训练模型的Open ALDALL·E及CLIP、NVIDIA GauGAN2.微软及北大 NÜWA女娲、NVIDIA PoEGAN、DeepMind的Gato、百度ERNIE-ViLG、Facebook及Meta 的AV-HuBERT(基于语音和唇语输出文本)及Data2vec(横跨CV、NIP和语音)、中科院“紫东太初”、哥大及Facebook开发的VX2Text(基干视频、音频等输出文本)。
多模态能力的提升将成为AI真正实现认知智能和决策智能的关键转折点。在未来1-2年,“文字一图像”的生成将快速落地。目前,“文字-视频”的生成也已有相对理想的实验效果,三个模态的跨模态生成也已经开始尝试。
接下来,我们将区分具体模态,对跨模态生成领域的代表模型进行介绍
文字生成图像2021年,OpenAI的CLIP和DALLE开启了AI绘画重要的一年。同年,CVPR2021收录的VQGAN也引发了广泛关注。2022年被称为“AI绘画“之年,多款模型/软件证明了基于文字提示得到效果良好的图画的可行性,DiffusionModel受到广泛关注。
首先,OpenAI推出了GLIDE。GLIDE全称Guided Lanquage to Image Diffusion for Generation andEditing,是一种扩散模型,参数仅35亿。支持CLIP引导(经训练后的噪声感知64x64 ViT-L CLIP模型)和无分类器引导,支持部分P图和迭代生成。
随后为Disco Dlffusion,该免费开源项目搭载在Google Colab上,需要一定的代码知识,更擅长梦境感的抽象田面,在具象生成和较多的描述语句上效果较差。随后,Disco Diffusion的作者之一推出了AI绘画聊天机器人Midiournev。该软件搭载在Discord上,商业化和产品化更为成熟,并提出了明确的分润模式(商业变现达到两万美金后需要20%分润)。
类似的软件及公司包括Bia Sleep、StarrvAl、WOMBO Dream。国内相关软件则包括Timmat,以及百度文心ERNIE-ViLG、小冰框架、悟道文澜、阿里M6等跨模态生成模型。
更擅长具象、对文本指令还原度更高的DALL。E2和Imagen Al证实了AI绘画的实际应用价值。但需要注意的是两者的技术思路并不相同。尽管扩散模型等引发了巨大关注,但不同的技术思路同样呈现出了较好效果。目前尚无法确定未来AI绘画的关键技术里程碑。
文字生成视频在一定程度上,文本生成视频可以看作是文本生成图像的进阶版技术。我们预估,AI绘画和AI生成视频将分别在3年和5年后迎来较为广泛的规模应用。
一方面,两者的本质比较接近。文本生成视频同样是以Token为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。而另一方面,视频生成会面临不同帧之间连续性的问题。对生成图像间的长序列建模问题要求更高,以确保视频整体连贯流程。从数据基础来看,视频所需的标注信息量远高于图像。
按照技术生成难度和生成内容,可以区分为拼凑式生成和完全从头生成两种方式。
拼凑式生成的技术是指基干文字(涉及NLP语义理解)搜索合适的配图、音乐等素材,在已有模板的参考下完成自动剪辑。这类技术本质是“搜索推荐 自动拼接”,门槛较低,背后授权素材库的体量、已有模版数量等成为关键因素。目前已经进入可商用阶段,国外有较为成熟的产品。代表公司/产品方面,2C的包括百度智能视频合成平台
VidPress,彗川智能,Gliacloud. Svnths video.lumen5.2B端代表公司为Pencil.