图 2 中是对同一张图片进行了不同的文字 prompt 实验,显示了 Imagic 的多功能性。
由于研究者利用的底层生成扩散模型是基于概率的,该方法可以对单一的图像 - 文本对生成不同的结果。图 4 展示了使用不同的随机种子进行编辑的多个选项(对每个种子的η稍作调整)。这种随机性允许用户在这些不同的选项中进行选择,因为自然语言的文本 prompt 一般都是模糊和不精确的。
研究将 Imagic 与目前领先的通用方法进行了比较,这些方法对单一输入的真实世界图像进行操作,并根据文本 prompt 对其进行编辑。图 6 展示了 Text2LIVE[7] 和 SDEdit[32] 等不同方法的编辑结果。
可以看出,本文的方法对输入图像保持了高保真度,同时恰当地进行了所需的编辑。当被赋予复杂的非刚性编辑任务时,比如「让狗坐下」,本文方法明显优于以前的技术。Imagic 是第一个在单一真实世界图像上应用这种复杂的基于文本的编辑的 demo。