这样的RDM具有两个优点:
一是多样性强,二是计算开销小。
接着,利用RDM,团队就提出了今天的主角:表示条件图像生成架构RCG。
它是一个简单的自条件生成框架,由三个组件组成:
一个是SSL图像编码器,用于将图像分布转换为紧凑的表示分布。
一个是RDM,用于对该分布进行建模和采样。
最后是一个像素生成器MAGE,用于根据表示来处理图像像。
MAGE的工作方式主要是向token化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的token。
最终,测试表明,这个自条件生成框架虽结构简单但效果非凡:
在ImageNet 256×256上,RCG实现了3.56的FID和186.9的IS(Inception Score)得分。
相比之下,在它之前最厉害的无条件生成方法FID分数为7.04,IS得分为123.5。
以及,相比条件生成,RCG也丝毫不逊色,可以达到相当甚至超过该领域基准模型的水平。
最后,在无分类器引导的情况下,RCG的成绩还能进一步提高到3.31(FID)和253.4(IS)。
团队表示:
这些结果表明,自条件图像生成模型拥有巨大潜力,可能预示这一领域新时代的到来。
团队介绍本文一共三位作者:
一作是MIT博士生黎天鸿,本科毕业于清华姚班,研究方向为跨模态集成传感技术。
他的主页很有意思,还专门放了一个菜谱合集——做研究和做饭是他最热爱的两件事。