小度怎么控制啥也玩不了,禁用小度所有技能

首页 > 经验 > 作者:YD1662022-10-30 01:29:28

二、文字转图片刚有进展,视频就来了

在《阿法狗之后,它再次彻底颠覆人类认知》中,我们曾经介绍过图像生成应用 DALL·E。曾有人用它制作出的图像去和人类艺术家 PK并最终取胜。

现在我们看到的 Make-A-Video 可以说是一个视频版本的 DALL·E(初级版)——它就像 18 个月前的 DALL·E,有巨大突破,但现在的效果不一定能让人满意。

甚至可以说,它就是站在巨人 DALL·E 肩膀上做出成就的产品。相较于文字生成图片,Make-A-Video 并没有在后端进行太多全新变革。

研究人员在论文中也表示:「我们看到描述文本生成图片的模型在生成短视频方面也惊人地有效。」

目前 Make-A-Video 制作的视频有 3 个优点:

  1. 加速了 T2V 模型(文字转视频)的训练;
  2. 不需要成对的文本转视频数据;
  3. 转化的视频继承了原有图像/视频的风格。

这些图像当然有缺点,前面提到的不自然都是真实存在的。而且它们不像这个年代诞生的视频,画质模糊,动作僵硬,不支持声音匹配,一段视频长度不超过 5 秒,解析度 64 x 64px 都是硬伤,它们的清晰度远远不够。

小度怎么控制啥也玩不了,禁用小度所有技能(21)

这个视频狗狗舌头和手有几帧非常怪异

几个月前清华大学和智源研究院(BAAI)研究团队发布的第一个能根据文本直接合成视频的 CogVideo 模型也有这样的问题。它基于大规模预训练的 Transformer 架构,提出了一种多帧率分层训练策略,可以高效的对齐文本和视频片段,只是也经不起细看。

但谁能说 18 个月后,Make-A-Video 和 CogVideo 制作的视频不会比大部分人更好呢?

目前已经发布的文字转视频工具虽然不多,但在路上的却有不少。在 Make-A-Video 发布后,初创企业 StabilityAI 的开发者就公开表示:「我们的(文字转视频应用)会更快更好,适用于更多人。」

有竞争才会更好,越来越逼真的文字转图像功能就是最好的证明。

作者:冷思真

来源公众号:爱范儿(ID:ifanr);连接热爱,创造不同。

本文由人人都是产品经理合作媒体 @爱范儿 授权发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

上一页23456末页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.