vd是什么软件,vd软件推荐

首页 > 健康 > 作者:YD1662023-04-14 22:42:09

在训练上,CogVideo一共用了540万个文本-视频对。

这里不仅仅是直接将文本和视频匹配起来“塞”给AI,而是需要先将视频拆分成几个帧,并额外给每帧图像添加一个帧标记。

这样就避免了AI看见一句话,直接给你生成几张一模一样的视频帧。

其中,每个训练的视频原本是160×160分辨率,被CogView2上采样(放大图像)至480×480分辨率,因此最后生成的也是480×480分辨率的视频。

至于AI插帧的部分,设计的双向通道注意力模块则是为了让AI理解前后帧的语义。

vd是什么软件,vd软件推荐(9)

最后,生成的视频就是比较丝滑的效果了,输出的4秒视频帧数在32张左右。

在人类评估中得分最高

这篇论文同时用数据测试和人类打分两种方法,对模型进行了评估。

研究人员首先将CogVideo在UCF-101和Kinetics-600两个人类动作视频数据集上进行了测试。

vd是什么软件,vd软件推荐(10)

其中,FVD(Fréchet视频距离)用于评估视频整体生成的质量,数值越低越好;IS(Inception score)主要从清晰度和生成多样性两方面来评估生成图像质量,数值越高越好。

整体来看,CogVideo生成的视频质量处于中等水平。

但从人类偏好度来看,CogVideo生成的视频效果就比其他模型要高出不少,甚至在当前最好的几个生成模型之中,取得了最高的分数:

vd是什么软件,vd软件推荐(11)

具体来说,研究人员会给志愿者一份打分表,让他们根据视频生成的效果,对几个模型生成的视频进行随机评估,最后判断综合得分:

vd是什么软件,vd软件推荐(12)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.