CogVideo的共同一作洪文逸和丁铭,以及二作郑问迪,三作Xinghan Liu都来自清华大学计算机系。
此前,洪文逸、丁铭和郑问迪也是CogView的作者。
论文的指导老师唐杰,清华大学计算机系教授,智源研究院学术副院长,主要研究方向是AI、数据挖掘、机器学习和知识图谱等。
对于CogVideo,有网友表示仍然有些地方值得探究,例如DALL-E2和Imagen都有一些不同寻常的提示词来证明它们是从0生成的,但CogVideo的效果更像是从数据集中“拼凑”起来的:
例如,狮子直接“用手”喝水的视频,就不太符合我们的常规认知(虽然很搞笑):
(是不是有点像给鸟加上两只手的魔性表情包)
但也有网友指出,这篇论文给语言模型提供了一些新思路:
用视频训练可能会进一步释放语言模型的潜力。因为它不仅有大量的数据,还隐含了一些用文本比较难体现的常识和逻辑。