完全从头生成视频则是指由AI模型基于自身能力,不直接引用现有素材,生成最终视频。该领域目前仍处于技术尝试阶段,所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间。以Cogvideo为例.该模型基于预训练文本-图像模型CogView2打造,一共分为两个模块。第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。
由于从静态内容生成进入到了动态生成阶段,需要考虑其中时序性、连续性的问题。视频生成对于内容生成领域将具有节点性意义。同时,由于视频中会包括文本中难以表现的逻辑或尝试,相较于图像或纯文本训练,视频预训练模型有助于进一步释放语言模型的能力。
其他相关预训练模型还包括NVIDIA推出的GauGAN、微软亚洲研究院推出的GODIVA、清华及智源研究院提出的VideoGPT、TGAN、Ground Truth等。
图像/视频到文本具体应用包括视觉问答系统、配字幕、标题生成等,这一技术还将有助于文本一图像之间的跨模态搜索。代表模型包括METER、ALIGN等。除了在各个模态之间进行跨越生成之外,目前,包括小冰公司在内的多家机构已经在究多模态生成,同时将多种模态信息作为特定任务的输入,例如同时包括图像内的人物、时间、地点、事件、动作及情感理解、甚至包含背后深度知识等。以保证生成结果更加精准。
策略生成游戏AI以腾讯AI Lab在游戏制作领域的布局为例,人工智能在游戏前期制作、游戏中运营的体验及运营优化、游戏周边内容制作的全流程中均有应用。
我们将其中的核心生成要素提炼为Al Bot、NPC相关生成和相关资产生成。
Al Bot,也即游戏操作策略生成可以将其简单理解为人工智能玩家,重点在干生成真实对战策略。2016年Deepmind AlphaGO在围棋中有所展示,随后,AI决策在Dota2、StarCraft2、德扑、麻将等游戏领域中均展现出了良好的实力。
技术关键在于强化学习方案优化设计,体现为多智能体使用、可适应游戏/环境复杂度、具体策略多样性等。目前,包括网易在内的我国主流游戏公司已经形成共识,除去直接以陪玩等形式服务C端玩家,也在通过游戏跑图。
平衡度等方式服务于游戏开发/运营等B端。
相关业务场景- 前期平衡性测试
游戏策划会根据具体的游戏内容,为角色本身的属性、技能、状态等,以及道具、环境、货币等参数,设定一系列的数值。平衡性测试能够充分地模拟玩家在某一套数值体系下的游戏体验,提出优化策略,为玩家带来更加平衡的多样性游戏交互。
之前需要在测试服上邀请人类玩家试玩1-2个月后才能得到结果。现在由AlBot直接在内部完成相关工作即可。
- 游戏跑图/功能测试
通过Albot针对性的找出游戏中所有交互的可能性,通过发现潜在漏洞辅助游戏策划
- 对局陪伴
包括平衡匹配、冷启动、玩家掉线接管等
- 特定风格模拟
在绝悟中,AI通过模仿职业选手,掌握他们的典型个人风格,玩家则感觉像在与真实的职业选手对抗
- 基于玩法教学的新型人机互动
在游戏内“绝悟试炼”玩法中,在玩家发出各种指令后,AI会根据而量、距离等实际情况,评估指令的合理性,选择执行或拒绝,身兼队友及老师,与玩家在真实对战环境中交流协作,并在过程中向玩家传授职业级的策略与操作技术,帮助玩家迅速熟悉英雄操作与游戏玩法。在引入王者绝悟AI教学后,玩家单局游戏主动沟通的次数有明显提升,提高了PVE玩法的可玩性。
代表机构:腾讯Al Lab (腾讯“绝悟”)
「绝悟、AI通过强化学习的方法来模仿真实玩家,包括发育、运营、协作等指标类别,以及每分钟手速、技能释放频率、命中率、击*数等具体参数,让AI更接近正式服玩家真实表现,将测试的总体准确性提升到95%。
目前腾讯绝悟在环境观测、图像信息处理、探索效率等方面的创新算法已经突破了可用英雄限制(英雄池数量从40增为100),让 AI完全掌握所有英雄的所有技能并达到职业电竞水平,能应对高达10的15次方的英雄组合数变化。基干绝悟,王者荣耀的数值平衡性偏差已经从1.05%下降到0.68%,其所涉及的“多智能体”决策过程中,可以在高达 10 的 20000 次方种操作可能性的复杂环境中进行决策。
目前,腾讯AI Lab还与腾讯 Al Lab 还与王者荣耀联合推出了AI开放研究平台「开悟」,并积极举办相关赛事。
代表公司:超参数
估值已达独角兽,业内率先实现在3D FPS(游戏的帧数)领域的大规模商业化落地,服务对象包括数款千万级日活的游戏产品。超参数科技的AI服务已经为数款年流水超过10亿元的游戏产品贡献了巨大的商业价值,涵盖沙盒、开放世界、FPS、MOBA、休闲竞技等多个品类。
其Al Bot支持玩家陪玩、多人团队竞技、非完美信息博弈A,并提供了自研小游戏《轮到你了》中的虚拟玩家。目前,Albot已在多款千万日活的产品中上线:每日在线数峰值将近百万。游戏Al平台“Delta”三具备跨云调度超过50万核的计算能力,承载超过50万个AI并发在线:每天服务全球40余个国家的上亿玩家、提供数千亿次调用。
在我国,网易伏养,商汤科技也已在其业务布局中提及该部分业务。
NPC逻辑及剧情生成,也即由AI生成底层逻辑此前,NPC具体的对话内容及底层剧情需要人工创造驱动脚本,由制作人主观联想不同NPC所对应的语言、动作、操作逻辑等,这种动态的个性化匹配背后依旧是不同的静态分支,创造性及个性化相对有限。
而以rct AI的智能NPC为例,其NPC能够分析玩家的实时输入,并动态地生成交互反应,从而构建几乎无限目不重复的剧情,增强自户体验并延长游戏生命周期。特别是在养成类游戏中,Al所提供的个性化生成能够带来画面,剧情及具*互的个性化全新游戏体验。而实时剧情生成则有助于在特定框架内生成全新的可能性,增加游戏整体的叙事可能性。
虚拟数字人虚拟数字人指存在于非物理世界(如图片、视频、直播、一体服务机、VR)中,并具有多重人类特征的综合产物。
目前“深度合成 计算驱动”型的虚拟人,综合运用文本、图像、音频等生成技术,打造综合外观、面部表情、发声习惯等产出全面拟人化的数字内容,属于AIGC领域。
此种多模态生成技术的聚合应用在虚拟偶像、虚拟主播等领域已有广泛应用。在《量子位虚拟数字人深度产业报告》中,我们将虚拟人按照产业应用划分为两种,即服务型虚拟人及身份型虚拟人。
计算驱动型/AIGC型虚拟人制作流程
1.设计形象:扫描真人形态及表演、采集驱动数据,利用多方位摄像头,对通用/特定模特进行打点扫描,采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据。
2.形象建模,进行绑定:设计所需的模型,或基于特定真人进行高还原度建模,进行关键点绑定。关键点绑定的数量及位置影响最终效果。
3.训练各类驱动模型:决定最终效果的核心步骤 利用深度学习,学习模特语音,唇形,表情参数间的潜在映射关系,形成各自的驱动模型与驱动方式。
充足的吸动关键占配合以精度较高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。
4.内容制作:基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数 核心的技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合成技术)。
将输入的本文转化为语音。基于语音,结合第3步得到的驱动模型,并利用生成对抗模型GAN选出最符合现实的图片,推理得到每帧数字人的图片。通过时间戳,将语音和每帧的数字人图片进行结合。
5.进行渲染,生成最终内容:直播时进行实时渲染。为保证在特定场景下能够实现实时低延迟渲染,计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果
综合来看,我们认为虚拟人生成代表着从文本/音频等低密度模态向图像/视频/实时交互等信息密度更高的模态的转化。其中,视频是短期的发展重点,而长期来看,乃至在元宇宙阶段,通过实时交互成为社交节点,都将是虚拟人重要的应用场景。
在AIGC领域,我们将虚拟人生成分为虚拟人视频生成和虚拟人实时互动。
虚拟人视频生成是目前计算驱动型虚拟人应用最为广泛的领域之一,不同产品间主要的区分因素包括:唇形及动作驱动的自然程度、语音播报自然程度、模型呈现效果(2D/3D、卡通/高保真等)、视频渲染速度等。
我们在此关注到了小冰公司与每日财经新闻合作的虚拟人实时直播,除虚拟人的自动生成外,还包括了摘要、图示、表格等的自动生成,在虚拟人的基础上,交付了更为完整的AIGC内容播报产品。此外,倒映有声的TTSA除虚拟人外,还包括整个画面中的素材呈现,相较于市面上嘴形、面部和身体律动的有限覆盖,虚拟人播报的整体效果也有所提升。
代表公司:倒映有声
一家以技术为核心的创新型公司和无人驱动数字分身技术解决方案供应商。通过自研神经渲染引整和TTSA技术,实现基于文本实时生成高质量语音(音频)和动画(视频)。
在试用了倒映有声的产品后。我们发现其虚拟人自然度高于市面产品,倒映有声将其归结于神经渲染(NeuralRendering)、TTSA(基于文本和语音合成实时生成音频和视频)、ETTS(富情感语音合成)、Diqital Twin(数字孪生)。通过神经渲染技术快速构建AI数字分身,通过语音 图像生成技术,生成和驱动教字分身的唇形、表情、动作、肢体姿态,创造表情自然,动作流畅,语音充满情感的高拟真度数字分身IP。
而虚拟人的实时互动则广泛应用于可视化的智能客服,多见于APP、银行大堂等。在AIGC的虚拟人领域,由于更能够体现AI在个性化、高并发性等方面的优势,我们更强调虚拟人的实时交互功能。我们可以将这一功能理解为以人为单位的数字变生,其中会进一步涉及思维及策略相关的生成。但由于文本生成的局限性,该场景目前只能适用于特定行业。
该领域的代表公司包括:HourOne.ai、Synthesia、Rephrase.ai、小冰公司、倒映有声、数字王国、影谱科技、科大讯飞、相芯科技、追一科技、网易伏羲、火山引擎、百度、搜狗等。
除了基干NLP进行问答外,以小冰公司和腾讯Alab(A虚拟人艾灵)为代表,部分公司也在尝试将不同的生成能力融合在虚拟人下,使虚拟人能够更好的融入现实世界。
以小冰公司的小冰框架为例,虚拟人不仅在人格化形式上涉及了虚拟面容生成,虚拟语音定制、交互等,并进一步被赋予了写诗、绘画、演唱、音乐创作等AI内容创作能力,以虚拟人为接口,对外提供全栈式的AIGC能力。
虚拟人及综合性AIGC代表公司:小冰公司
小冰是全球领先的人工智能科技公司,旗下小冰框架是全球承载交互量最大的完备人工智能框架之一,在开放域对话、多模态交互、超级自然语音、神经网络渲染及内容生成领域居于全球领先。
作为“Albeing”派虚拟人。小冰的产品始终是人 交互 内容。具体包括虚拟人(夏语冰等somebodyinstance、虚拟男友等nobodyinstance和国家队人工智能助判与教练系统观君等在乖直场景中工作的虚拟人类),音精生成(主攻超级语言及歌声,在线歌曲生成平台与歌手歌声合成软件Xstudio)、视觉创造(毕业作品集《或然世界》、为国家纺织品开发中心、万事利等数百家机构提供了图案和纹样设计)、文本创造(2017年即推出小冰诗集)、虚拟社交、Game Al(Xiaoice Game Studio)等。
商业客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域,并提出了以“人力”的逻辑去进行商业报价的虚拟人商业模式。
五、国外AIGC工具
国外AIGC产品导航:https://library.phygital.plus
代表产品1:ChatGPT(文本生成领域)
ChatGPT官网:https://chat.openai.com/chat#
国内可使用这个入口进行体验(国内团队搭建的独立站,暂时可以免费使用):https://chat.forchange.cn
相关文章:一文读懂:有关ChatGPT的十个问题
刷屏的ChatGPT能帮自媒体人写稿吗?我们试了试
代表产品2:Midjourney(图像生成领域)
Midjourney官网:https://midjourney.com/home
midjourney作品分享社区:https://midjourney.com/showcase/recent
相关文章:一些 Midjourney 的入门指南与绘画经验
代表产品3:(视频生成领域)
runwayml官网:https://runwayml.com