MMDialog 多轮评估
结果如表 5 所示,MiniGPT-5 在生成更准确的文本回复方面优于基线模型 Divter。虽然生成的图像质量相似,但与基准模型相比,MiniGPT-5 在 MM 相关性方面更胜一筹,表明其可以更好地学习如何适当定位图像生成,并生成高度一致的多模态响应。
效果如何呢?我们来看一下 MiniGPT-5 的输出结果。下图 7 为 MiniGPT-5 与 CC3M 验证集上的基线模型比较。
下图 8 为 MiniGPT-5 与 VIST 验证集上基线模型的比较。
下图 9 为 MiniGPT-5 与 MMDialog 测试集上基线模型的比较。