虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预训练模型的出现引发了 AIGC技术能力的质变,以上的诸多落地问题得到了解决。
随着 2018 年谷歌发布基于 Transformer 机器学习方法的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数的预训练模型时代。AI预训练模型,又称为大模型、基础模型(foundation mode),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,可以适应广泛的下游任务。这些模型基于迁移学习的思想和深度学习的最新进展,以及大规模应用的计算机系统,展现了令人惊讶的涌现能力,并显著提高各种下游任务的性能。”鉴于这种潜力,预训练模型成为 AI技术发展的范式变革,许多跨领域的Al系统将直接建立在预训练模型上。具体到 AIGC 领域,AI 预训练模型可以实现多任务、多语言、多方式,在各种内容的生成上将扮演关键角色。按照基本类型分类,预训练模型包括:(1)自然语言处理(NLP)预训练模型,如谷歌的 LaMDA和 PaLM、Open AI的 GPT 系列:(2)计算机视觉(CV)预训练模型,如微软的 Florence:(3)多模态预训练模型,即融合文字、图片、音视频等多种内容形式。
三是,多模态技术推动了 AIGC 的内容多样性,让 AIGC 具有了更通用的能力。预训练模型更具通用性,成为多才多艺、多面手的 Al模型,主要得益于多模型技术(multimodal technol-ogy)的使用,即多模态表示图像、声音、语言等融合的机器学习。
2021年,OpenAI团队将跨模态深度学习模型CLIP(Contrastive Lanquaqe-Image Pre-Training,以下简称“CLIP")进行开源。CLIP 模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,CLIP 模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP 模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为 CLIP 天然的训练样本。
据统计,CLIP 模型搜集了网络上超过 40 亿个“文本-图像”训练数据,这为后续 AIGC 尤其是输入文本生成图像/视频应用的落地奠定了基础。在多模态技术的支持下,目前预训练模型已经从早期单一的 NLP或CV模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。
2021年3月OpenAl发布Al绘画产品DALL·E,只需要输入一句文字,DALL·E 就能理解并自动生成一幅意思相符的图像,且该图像是独一无二的。DALL·E 背后的关键技术即是 CLIP。CLIP 让文字与图片两个模态找到能够对话的交界点,成为 DALL·E、DALL·E2.0、Stable Diffusion 等突破性 AIGC成果的基石。总的来看,AIGC 在 2022 年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC技术变革,拥有通用性、基础性、多模态、参数多、训练数据量大、生成内容高质稳定等特征的 AIGC模型成为了自动化内容生产的“工厂”和“流水线”。
三、行业现状AIGC 产业生态加速形成和发展,走向模型即服务(MaaS)的未来,目前,AIGC 产业生态体系的雏形已现,呈现为上中下三层架构:
第一层,为上游基础层,也就是由预训练模型为基础搭建的 AIGC技术基础设施层。由于预训练模型的高成本和技术投入,因此具有较高的进入门槛。
以 2020 年推出的 GPT-3 模型为例Alchemy APl 创始人 Elliot Turner 推测训练 GPT-3 的成本可能接近 1200 万美元。
因此,目前进入预训练模型的主要机构为头部科技企业、科研机构等。目前在AIGC领域,美国的基础设施型公司(处于上游生态位)有OpenAl、Stability.ai等。
OpenAl的商业模式为对受控的 api调用进行收费。Stabilitv.ai以基础版完全开源为主,然后通过开发和销售专业版和定制版实现商业获利,目前估值已经超过 10 亿美金。因为有了基础层的技术支撑,下游行业才能如雨后春笋般发展,形成了目前美国的 AIGC 商业流。
第二层,为中间层,即垂直化、场景化、个性化的模型和应用工具。
预训练的大模型是基础设施,在此基础上可以快速抽取生成场景化、定制化、个性化的小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署,同时兼具按需使用、高效经济的优势。随着兼具大模型和多模态模型的AIGC模型加速成为新的技术平台,模型即服务(Model-as-a-Service,MaaS)开始成为现实,预计将对商业领域产生巨大影响。Stable Diffusion 开源之后,有很多基于开源模型的二次开发,训练特定风格的垂直领域模型开始流行,比如著名的二次元画风生成的 Novel-Al,还有各种风格的角色生成器等。
第三层,为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。
在应用层,侧重满足用户的需求,将 AIGC 模型和用户的需求无缝衔接起来实现产业落地。以 Stable Diffusion 开源为例,它开放的不仅仅是程序,还有其已经训练好的模型,后继创业者能更好的借助这一开源工具,以 C端消费级显卡的算力门槛,挖掘出更丰富的内容生态,为 AIGC 在更广泛的C端用户中的普及起到至关重要的作用。
现在贴近C端用户的工具越发丰富多样,包括网页、本地安装的程序、移动端小程序、群聊机器人等,甚至还有利用 AIGC工具定制代出图的内容消费服务。
目前,从提供预训练模型的基础设施层公司到专注打造 AIGC产品和应用工具的应用层公司,美国围绕 AIGC 生长出繁荣的生态,技术创新引发的应用创新浪潮迭起:中国也有望凭借领先的 AIGC 技术赋能千行百业。