3d fps是什么意思（FPS是什么意思啊） - 原点资讯

在此基础上，大型预训练模型的发展重点开始向横跨文本、图像、语音、视频的全模态通用模型发展。通过计算策略、数据调用策略、深度学习框架等方法提升模型效果成为目前研究的进展关键。与此同时，覆盖更多模态的训练数据同样值得关注。例如，MultiBench提供了包括10个模态的数据集，PanoAVQA提供了360度视频数据，X-World提供用于自动驾驶的各类模态数据。目前，华为诺亚方舟已经开源了全球首个亿级中文多模态数据集“悟空”。

跨模态大型预训练模型的代表包括:开启了跨模态预训练模型的Open ALDALL·E及CLIP、NVIDIA GauGAN2.微软及北大 NÜWA女娲、NVIDIA PoEGAN、DeepMind的Gato、百度ERNIE-ViLG、Facebook及Meta 的AV-HuBERT(基于语音和唇语输出文本)及Data2vec(横跨CV、NIP和语音)、中科院“紫东太初”、哥大及Facebook开发的VX2Text(基干视频、音频等输出文本)。

3d fps是什么意思,FPS是什么意思啊(21)

多模态能力的提升将成为AI真正实现认知智能和决策智能的关键转折点。在未来1-2年，“文字一图像”的生成将快速落地。目前，“文字-视频”的生成也已有相对理想的实验效果，三个模态的跨模态生成也已经开始尝试。

接下来，我们将区分具体模态，对跨模态生成领域的代表模型进行介绍

文字生成图像

2021年，OpenAI的CLIP和DALLE开启了AI绘画重要的一年。同年，CVPR2021收录的VQGAN也引发了广泛关注。2022年被称为“AI绘画“之年，多款模型/软件证明了基于文字提示得到效果良好的图画的可行性，DiffusionModel受到广泛关注。

首先，OpenAI推出了GLIDE。GLIDE全称Guided Lanquage to Image Diffusion for Generation andEditing，是一种扩散模型，参数仅35亿。支持CLIP引导(经训练后的噪声感知64x64 ViT-L CLIP模型)和无分类器引导，支持部分P图和迭代生成。

随后为Disco Dlffusion，该免费开源项目搭载在Google Colab上，需要一定的代码知识，更擅长梦境感的抽象田面，在具象生成和较多的描述语句上效果较差。随后，Disco Diffusion的作者之一推出了AI绘画聊天机器人Midiournev。该软件搭载在Discord上，商业化和产品化更为成熟，并提出了明确的分润模式(商业变现达到两万美金后需要20%分润)。

类似的软件及公司包括Bia Sleep、StarrvAl、WOMBO Dream。国内相关软件则包括Timmat，以及百度文心ERNIE-ViLG、小冰框架、悟道文澜、阿里M6等跨模态生成模型。

更擅长具象、对文本指令还原度更高的DALL。E2和Imagen Al证实了AI绘画的实际应用价值。但需要注意的是两者的技术思路并不相同。尽管扩散模型等引发了巨大关注，但不同的技术思路同样呈现出了较好效果。目前尚无法确定未来AI绘画的关键技术里程碑。

3d fps是什么意思,FPS是什么意思啊(22)

3d fps是什么意思,FPS是什么意思啊(23)

文字生成视频

在一定程度上，文本生成视频可以看作是文本生成图像的进阶版技术。我们预估，AI绘画和AI生成视频将分别在3年和5年后迎来较为广泛的规模应用。

一方面，两者的本质比较接近。文本生成视频同样是以Token为中介，关联文本和图像生成，逐帧生成所需图片，最后逐帧生成完整视频。而另一方面，视频生成会面临不同帧之间连续性的问题。对生成图像间的长序列建模问题要求更高，以确保视频整体连贯流程。从数据基础来看，视频所需的标注信息量远高于图像。

按照技术生成难度和生成内容，可以区分为拼凑式生成和完全从头生成两种方式。

拼凑式生成的技术是指基干文字(涉及NLP语义理解)搜索合适的配图、音乐等素材，在已有模板的参考下完成自动剪辑。这类技术本质是“搜索推荐自动拼接”，门槛较低，背后授权素材库的体量、已有模版数量等成为关键因素。目前已经进入可商用阶段，国外有较为成熟的产品。代表公司/产品方面，2C的包括百度智能视频合成平台

VidPress，彗川智能，Gliacloud. Svnths video.lumen5.2B端代表公司为Pencil.

3d fps是什么意思,FPS是什么意思啊(24)