小度怎么控制啥也玩不了（禁用小度所有技能） - 原点资讯

二、文字转图片刚有进展，视频就来了

在《阿法狗之后，它再次彻底颠覆人类认知》中，我们曾经介绍过图像生成应用 DALL·E。曾有人用它制作出的图像去和人类艺术家 PK并最终取胜。

现在我们看到的 Make-A-Video 可以说是一个视频版本的 DALL·E（初级版）——它就像 18 个月前的 DALL·E，有巨大突破，但现在的效果不一定能让人满意。

甚至可以说，它就是站在巨人 DALL·E 肩膀上做出成就的产品。相较于文字生成图片，Make-A-Video 并没有在后端进行太多全新变革。

研究人员在论文中也表示：「我们看到描述文本生成图片的模型在生成短视频方面也惊人地有效。」

目前 Make-A-Video 制作的视频有 3 个优点：

这些图像当然有缺点，前面提到的不自然都是真实存在的。而且它们不像这个年代诞生的视频，画质模糊，动作僵硬，不支持声音匹配，一段视频长度不超过 5 秒，解析度 64 x 64px 都是硬伤，它们的清晰度远远不够。

小度怎么控制啥也玩不了,禁用小度所有技能(21)

这个视频狗狗舌头和手有几帧非常怪异

几个月前清华大学和智源研究院（BAAI）研究团队发布的第一个能根据文本直接合成视频的 CogVideo 模型也有这样的问题。它基于大规模预训练的 Transformer 架构，提出了一种多帧率分层训练策略，可以高效的对齐文本和视频片段，只是也经不起细看。

但谁能说 18 个月后，Make-A-Video 和 CogVideo 制作的视频不会比大部分人更好呢？

目前已经发布的文字转视频工具虽然不多，但在路上的却有不少。在 Make-A-Video 发布后，初创企业 StabilityAI 的开发者就公开表示：「我们的（文字转视频应用）会更快更好，适用于更多人。」

有竞争才会更好，越来越逼真的文字转图像功能就是最好的证明。

作者：冷思真

来源公众号：爱范儿（ID：ifanr）；连接热爱，创造不同。

本文由人人都是产品经理合作媒体 @爱范儿授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

小度怎么控制啥也玩不了,禁用小度所有技能