图像生成的应用,函数图像生成

首页 > 经验 > 作者:YD1662022-10-25 21:58:13

一只乘坐火车的怪兽熊。说真的,密恐患者抓紧绕行。小编看完这张图密恐直接窜到顶了。看看这诡异的胳膊,像脸一样的身子,像眼珠子一样的轮子...

图像生成的应用,函数图像生成(13)

一座山峰。讲道理,这张图蛮有意境的。但有没有感觉,远处的山和近处的小火车压根不是一个画风?

图像生成的应用,函数图像生成(14)

背后技术

虽然目前的方法提供了文本和图像域之间还算不错的转换,但它们仍然有几个关键问题没有很好地解决:可控性、人类感知、图像质量。

该模型的方法一定程度提高了结构一致性和图像质量。

整个场景由三个互补的语义分割组(全景、人类和人脸)组成。

通过组合三个提取的语义分割组,网络学习生成语义的布局和条件,生成最终图像。

为了创建场景的token空间,作者们采用了「VQ-SEG」,这是一项对「VQ-VAE」的改进。

在该实现中,「VQ-SEG」的输入和输出都是m个通道。附加通道是分隔不同类和实例的边的映射。边缘通道为同一类的相邻实例提供分离,并强调具有高度重要性的稀缺类。

在训练「VQ-SEG」网络时,由于每个人脸部分在场景空间中所占的像素数量相对较少,因此导致了重建场景中代表人脸部分(如眼睛、鼻子、嘴唇、眉毛)的语义分割频繁减少。

对此,作者们尝试在分割人脸部分类的基础上采用加权二元交叉熵人脸损失,更加突出人脸部分的重要性。此外,还将人脸部分的边缘作为上述语义分割边缘图的一部分。

作者们采用了在ImageNet数据集上训练的预训练VGG网络,而不是专门的人脸嵌入网络,并引入了表示重建图像和真实图像之间感知差异的特征匹配损失。

通过使用特征匹配,给VQ-IMG中的encoder和decoder分别添加额外的上采样层和下采样层,便可以将输出图像的分辨率从256×256进行提高。

想必大家对Transformer并不陌生,那么基于场景的Transformer又是什么呢?

它依赖于一个具有三个独立连续的token空间的自回归Transformer,即文本、场景和图像。

图像生成的应用,函数图像生成(15)

token序列由BPE编码器编码的文本token、VQ-SEG编码的场景token以及VQ-IMG编码或者解码的图像token组成。

在训练基于场景的Transformer之前,每个编码好的token序列都对应一个[文本,场景,图像]元组,使用相应的encoder提取。

此外,作者们还采用了无分类器引导,即将无条件样本引导到条件样本的过程。

该模型实现了SOTA结果。具体看一下和之前方法的效果对比

图像生成的应用,函数图像生成(16)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.