通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。
Al编曲则指对AI基于主旋律和创作者个人的偏好,生成不同乐器的对应和弦(如鼓点、贝斯、钢琴等),完成整体编配。在这部分中,各乐器模型将通过无监督模型,在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系,从而基于主旋律生成自身所需和弦。对于人工而言,要达到乐曲编配的职业标准,需要7-10年的学习实践。
人声录制则广泛见于虚拟偶像的表演现场(前面所说的语音克隆),通过端到端的声学模型和神经声码器完成.
可以简单理解为将输入文本替换为输入MIDI数据的声音克隆技术。混音指将主旋律、人声和各乐器和弦的音轨进行渲染及混合,最终得到完整乐曲。该环节涉及的AI生成能力较少。
该场景下的代表企业包括Deepmusic、网易-有灵智能创作平台、Amper Music、AIVA、Landr、IBM
、Watson Music、Magenta、Loudly、Brain.FM、Splash、Flow machines。其中,自动编曲功能已在国内主流音乐平台上线,并成为相关大厂的重点关注领域。以QQ音乐为例,就已成为Amper music的API合作伙伴。
对这一部分工作而言,最大的挑战在于音乐数据的标注。在标注阶段,不仅需要需要按时期、流派、作曲家等特征,对训练集中乐曲的旋律、曲式结构、和声等特征进行描述,还要将其有效编码为程序语言。此外,还需要专业人员基于乐理进行相关调整润色。以Deepmusic为例,音乐标注团队一直专注在存量歌曲的音乐信息标注工作上,目前已经形成了全球最精确的华语歌曲音乐信息库,为音乐信息检索(MIR)技术研究提供数据支持。
场景推荐我们认为,以乐曲二创、辅助创作等场景为代表,Al编曲将在短期内成为AI音频生成中的快速成长赛道。特别是由于可以指定曲目风格、情绪、乐器等,AIGC音乐生成对干影视剧、游戏等多样化,乃至实时的背景音乐生成有重要意义。
图像生成基于对不同技术原理的梳理,我们将图像生成领域的技术场景划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。其中,前两者的落地场景为图像编辑工具,而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。
图像属性及部分编辑属性编辑部分,可以直观的将其理解为经AI降低门槛的PhotoShop。目前而言,图片去水印、自动调整光影、设置滤镜(如Prisma、Versa、Vinci和Deepart)、修改颜色纹理(如DeepAl)、复刻/修改图像风格(DALL·E2已经可以仅凭借单张冬像进行风格复刻,NiahtCafe等)、提升分辨率等已经常见。
关于此类场景,初创公司数量庞大,Adobe等相关业务公司(Adobe Sensai)也在进入这一领域。我们认为,对于此类业务而言,引流渠道和与技术流程挂钩的产品使用体验非常重要。现有的代表公司包括美图秀秀(美图AI开放平台)、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、Skylum (Mask Al)、Photodiva。
图像部分编辑部分,指部分更改图像部分构成(如英伟达CvcleGAN支持将图内的斑马和马进行更改)、修改面部特征(Metaphysics,可调节自身照片的情绪、年龄、微笑等;以Deepfake为代表的图像换脸)。由干技术限制,图像的各部分之间需要通过对齐来避免扭曲,伪影等问题,目前GAN还难以直接生成高质量的完整图像。2019年,曾宣传能够直接生成完整模特图的日本公司DataGrid目前已无动向。但同时,也出现了由局部生成并接为完整冬像的生成惠路。典型代表为选入CVPR2022的InsetGAN,该模型由Adobe推出。
同时,细粒度、分区域的图像编辑能力也较为关键,代表为英伟达的EditGAN。该模型将需要编辑的原图像x嵌入到EditGAN的潜空间,借助语义分割冬的相同潜码,将原冬x分割成高度精细的语义块(seamentation mask)并得到分割冬v。接着,使用简单的交互式数字绘画或标签工且进行手动修改。模型最终会共宣潜码的优化,以保持新分割图与真实图像的RGB外观一致。如图所示:
图像端到端生成此处则主要指基于草图生成完整图像(VansPortrait、谷歌Chimera painter可画出怪物、英伟达GauGAN可画出风景、基于草图生成人脸的DeepFaceDrawing)、有机组合多张图像生成新图像(Artbreeder)、根据指定属性生成目标图像(如Rosebud.ai支持生成虚拟的模特面部)等。
该部分包含两类场景,分别为创意图像生成与功能性图像生成。前者大多以NFT等形式体现,后者则大多以营销类海报/界面、loao、模特图、用户头像为主。
垂直代表公司/产品包括Deepdream Generator、Rosebud.ai、AGahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、ZMO.ai、Datagrid、诗云科技、道子智能绘画系统等。
由干冬像的生成复杂度远高干文字,在整体生成上,目前仍然难以达到稳定可靠的生成高质量图像。但据高林教授评价,人脸生成的应用将预计有更快的发展。从VAQ、VAE等技术选型开始,人脸生成的技术研究已经有了较好的效果,同时人脸数据集也较为充足。同时,单张的人脸生成价值相对有限。
要进一步发挥其价值,可以考虑将其与NeRE、也即3D内容生成相结合,支持从不同的视角和动作还原特定对象面部,能够在发布会、面见客户等场景中有重要作用。而对于近年视频换脸效果不佳的情况,高教授认为这与底层设计优化,例如除纹理相似度之外,在解编码中考虑更多的时间、动作、甚至情感等因素,并叠加考虑数据、渲染能力等因素。
视频生成视频属性编辑例如视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。代表公司包括RunwayML、Wisecut、Adobe Sensei、Kaleido、帝视科技、CCTV AIGC、影谱科技、Versa(不咕剪辑)、美图影像研究院等。
视频自动剪辑其干视频中的画面,声音等多模态信息的特征融合进行学习,按照氛围,情绪等高级语义限定,对满足条件片段进行检测井合成。目前还主要在技术尝试阶段。典型案例包括Adobe与斯坦福共同研发的A视频重标系统、IBMWatson自动前标电影饰告片,以及Flow Machine。我国的影谱科技推出了相关产品,能够其干视频中的画面,声音等多模态信息的特征融合进行学习,按照氛围,情绪等高级语义限定,对满足条件片段进行检洳并合成。
视频部分生成(以Deepfake为典型代表)技术原理:视频到视频生成技术的本质是其千目标图像或视频对源视频进行编辑及调试,通过其干语音等要素诼帧复刻,能够完成人脸替换,人脸再现人物表情或面部特征的改变),人脸合成(构建全新人物)其至全身合成,虚拟环境合成等功能。
其原理本质与图像生成类似,强调将视频切案成师,再对每一帧的图像进行外理。视频生成的流程通常可以分为三个步骤,即数据提取,数据训练及转换。以人脸合成为例,首先需要对源人物及目标人物的多角度特作数据提取,然后基于数据对模型进行训练并进行图像的合成,最后基干合成的图像将原始视频进行转换,即插入生成的内容并进行调试,确保每一帧之间的流程度及真实度。目前的技术正在提升修改精准度与修改实时性两方面。
落地分析在我们看来,该场景的底层商业逻辑与虚拟偶像类似。本质上是以真人的肖像权作为演员,实际表演者承担“中之人”的角色。其主要落地场景包含两方面:
一方面,可以选择服务于明星,在多语言广告、碎片化内容生成等领域使用,快速提升明星的IP价值。例如Svnthesia 为SnoopDoaa制作的广告,通过使用deepfake改变其嘴部动作,就能够将原始广告匹配到另一品牌。
另一方面,则可以服务干特定商务场景,例如培训材料分发(如WPP的全球培训视频),素人直播及短视频拍摄等。
由于技术要求,需要对最终脸部所有者进行大量数据采集,需要相关从业公司获取大量面部数据授权,对针对市场需求进行相关运营,完善后续的配套监管和溯源措施。
除了deepfake之外,我们还观察到了在视频中的虚拟内容植入,也即利用计算机图形学和目标检测在视频中生成物理世界并不存在的品牌虚拟元素,如logo、产品、吉祥物等。以国外公司Marriad为代表,该公司目前已经为腾讯视频服务,后者准备在插入虚拟资产的基础上,个性化展示广告。这将极大的简化商业化内容的生成过程。
图像、视频、文本间跨模态生成模态是指不同的信息来源或者方式。目前的模态,大多是按照信息媒介所分类的音频、文字、视觉等。而事实上.在能够导找到合适的载体之后,很多信息,诸如人的触觉、听觉、情绪、生理指标、甚至于不同传感器所对应的点云、红外线、电磁波等都能够变为计算机可理解可处理的模态。
对人工智能而言,要更为精准和综合的观察并认知现实世界,就需要尽可能向人类的多模态能力靠拢,我们将这种能力称为多模态学习MML(Multi-modal Learning),其中的技术分类及应用均十分多样。我们可以简单将其分为跨模态理解(例如通过结合街景和汽车的声音判断交通潜在危险、结合说话人的唇形和语音判定其说话内容)和跨模态生成(例如在参考其他图画的基础上命题作画:触景生情并创作诗歌等)。
Transformer架构的跨界应用成为跨模态学习的重要开端之一。
Transformer架构的核心是Self-Attention机制,该机制使得Transformer能够有效提取长序列特征,相较于CNN能够更好的还原全局。而多模态训练普遍需要将图片提取为区域序列特征,也即将视觉的区域特征和文本特征序列相匹配,形成Transformer架构擅长处理的一维长序列,对Transformer的内部技术架构相符合。
与此同时Transformer架构还且有更高的计算效率和可扩展性,为训练大型跨模态模型奠定了基础。Vision Transformer将Transformer架构首次应用于图像领域。该模型在特定大规模数据集上的训练成果超出了ResNet。
随后,谷歌的VideoBERT尝试了将Transformer拓展到“视频-文本”领域。该模型能够完成看图猜词和为视频生成字幕两项功能,首次验证了Transformer 预训练在多模态融合上的技术可行性。基于Transformer的多模态模型开始受到关注,ViLBERT、LXMERT、UNITER、Oscar等纷纷出现。
CLIP模型的出现,成为跨模态生成应用的一个重要节点。
CLIP.ContrastiveLanguage-Image Pre-training,由OpenAl在2021年提出,图像编码器和文本编码器以对比方式进行联合训练,能够链接文本和图片。可以简单将其理解为,利用CIP测定冬片和文本描述的贴切程度。
自CHP出现后,“CLP 其他模型”在跨模态生成领域成为一种较为通用的做法。以Disco Diffusion为例,该模型将CLIP模型和用于生成图像的Diffusion模型进行了关联。CLIP模型将持续计算Diffusion模型随机生成噪声与文本表征的相似度,持续迭代修改,直至生成可达到要求的图像。
除去图像领域,CLIP后续还在视频、音频、3D模型等领域扮演了关联不同模态的角色。例如入选CVPR2022.基于文本生成3D参像的Dreamfields(类似工作还包括CP-Forae)。不过目前,已经出现了在所需数据量和算力上表现更为优秀的匹配模型。例如南加州大学的TONICS。