上个月,OpenAI公司推出了文字生成视频的人工智能(AI)模型Sora。Sora用少量简短的文字提示就可以生成逼真的视频,比如一位女士在闪烁着霓虹灯的东京街头漫步,显得自信而随意,以及一只狗在两个窗台之间跳跃的视频片段。
AI界的新里程碑
在Sora之前的Chatgpt是文本类的辅助内容创作,辅助插图和画面生成。而Sora是视频大模型,通过输入文本或图片以生成、连接、扩展等多种方式编辑视频,属于多模态大模型范畴。
对比之前的视频模型一般是3-7秒、4秒、4-16秒,Sora生成时长60秒和分辨率1080P的视频。同时,Sora对文本理解的能力也很强,在大量文本解析的训练下,Sora可以准备捕捉、理解文本指令背后的情感用意,流畅、自然地转化为细节丰富、场景匹配的视频内容。Sora正在理解这个世界的物理规律,说Sora是人工智能的新里程碑一点都不为过。
Sora带来的便利和影响
对比以前的AI工具,Sora能把文字图片生成自然的视频,在时间上可以向前和向后扩展,可以根据需求生产同一主体的不同分辨率、尺寸和时间的视频,为我们的工作和生活带来了极大的便利。
特别是当下的短视频时代,一个人就可以全包摄影、导演和剪辑等多重角色。广告制作公司也可以根据品牌的需求制造广告视频;游戏动画公司可以用Sora直接生成游戏场景和角色动画,减少3D建模和动画制作的成本。
多模态大模型的应用在2024年将迎来黎明,影视、直播、媒体、广告、动漫、艺术设计等多个行业将率先应用。Sora也可以为教育、培训、娱乐等领域带来新的活力和变革,比如制作个性化的教学视频、逼真的模拟场景等。
模糊了虚拟和现实的界限
Sora作为一个强大而有趣的模型,其带来的新技术,无疑会带来安全上的问题,比如AI换脸的升级,导致容易被造谣,另外还有可能出现法律上的安全问题,比如一直以来作为比较可信证据的监控视频,可以轻松生成,辨别真伪的成本将会增加。
因此,我们需要对Sora可能带来的风险保持警惕,制定相应的规章制度,确保AI技术的安全和健康发展。在这碳硅融合的重要关口,无论是被称为“一次跨时代的技术平权”,还是出于可能“工作被替代或者安全”的担忧,人们确实可能将逐渐失去真实和虚伪的辨别能力,但即使如此,我们也没有必要恐惧新事物的出现,大胆去学习,去拥抱就可以了。
【重要声明:上述内容及观点由第三方合作平台智库提供,仅供参考,不构成任何投资建议,投资者据此操作,风险自担。】