虹膜贴图样本
3. 通过 Houdini 的 PDG 对资产,相机角度,灯光环境等进行随机组合。利用 PDG 对 workitem 的控制,精准的控制数据分布。
自动化的 PDG 节点图
由于研发过程需要频繁提供大量的渲染数据用于效果迭代,这需要花费大量算力成本以及渲染等待时间。此前,抖音的「魔法变身」特效上,团队曾花费了数百万成本使用外部农场用于数据渲染。而在「卡通脸」特效上,团队基于字节跳动旗下云平台火山引擎扎实的基础设施,大大降低了算力成本。
字节跳动智能创作团队参考影视工业的流程,搭建了一套自研的渲染农场平台。它可以将离线任务拆解到若干个渲染机器上进行并行处理。通过火山引擎镜像平台进行镜像托管、资源池化平台进行资源申请与释放、cpu/gpu 集群进行容器动态扩缩容,再使用 nas 进行资产管理,渲染农场具备了一键扩充数千个渲染节点进行高效计算的能力。
基于此,字节跳动智能创作团队自定义了单任务处理逻辑,包括前处理、引擎渲染、后处理等步骤。并根据需要,在任何时候动态扩展 / 缩小集群规模以最大化利用算力资源。
为了进一步提高效率,让设计师更方便参与到效果优化中,技术团队还制作了飞书小程序供设计师使用,通过飞书触发云端的自动化流程来迭代美术效果,在云端任务完成后,会发送消息回到飞书供设计师查看,大大提高了设计师工作的效率。
同时,字节跳动智能创作团队自定义了事件驱动(EventTrigger)和 Api 来打通农场、飞书平台以及云桌面平台,最大程度推进 All in one 理念,让设计师和工程师都能基于飞书和云桌面更方便地完成协同研发。
自研的渲染农场平台
AIGC 新技术的应用
随着 DALL・E 的问世,2021 年初字节跳动智能创作团队就开始了相关技术的跟进和规划,字节跳动智能创作团队在 Stable Diffusion 开源模型的基础上,构建了数据量达十亿规模的数据集,训练出两个模型,一个是通用型的模型 Diffusion Model,可以生成如油画、水墨画风格的图片;另外一个是动漫风格的 Diffusion Model 模型。
前不久,由字节跳动智能创作团队支持的「AI 绘画」特效在抖音上大火,采用的就是这一新技术。此次在抖音「卡通脸」上,技术团队进一步挖掘 Diffusion Model 在 3D 卡通风格上的生成能力,采用了图片生成图片的策略,首先对图片进行加噪,然后再用训练好的文生图模型在文本的引导下去噪。基于一个预训练好的 Stable Diffusion 模型,输入 GAN 生成的与真人图相匹配的目标 3D 风格结果图,通过精调过的一组文本关键词,引导目标风格往期望的方向靠近,Stable Diffusion 输出的结果即作为最终数据交给后续的 GAN 模型学习。
自研的形变 GAN 模型
由于抖音「卡通脸」的目标风格与原始人像相比有较大形变,直接用传统 p2p 框架难以训练出高质量效果,字节跳动智能创作团队自研了一套 p2p 形变 GAN 训练框架,对于训练大形变、强风格的卡通目标有很好的效果。字节跳动智能创作团队自研的形变 GAN 训练框架包含两个部分:
1、风格化初步训练,提取卡通脸风格化信息。技术团队构建了一个风格化信息交互融合的非配对训练框架,将真人和卡通脸数据集输入到该框架就可以提取卡通脸风格化信息。该框架是一个端到端的训练框架,包含了风格化特征编码、特征融合、重建训练和风格化初步训练,训练完成后得到一个卡通脸风格化信息,用于下一步精细化训练。
2、融合卡通脸风格化信息,精细训练。由第一步得到的卡通脸风格化信息包含了风格和形变等信息,将这部分信息融合到真人图进行精细化训练,利用 p2p 相关的强监督 loss 进行配对训练,训练收敛后得到卡通脸模型。