郭德纲和完颜慧德讲英语以假乱真的视频你也能做,我来教你。
·第一步、是语音识别。把原视频的语音识别成文字,软件会把音频分割成声音片段,再给这些片段匹配语言库里的单词:Hey budy,what about the melan pice?除了OpenAI的Whisper,讯飞听见、飞书妙记和剪映都能干这活。翻译就不用教了吧?
谁写论文没用过一两个翻译软件(data pot showm)?把翻译好的文本喂给计算机,走个语音克隆的流程,它就会用原来声音的频谱生成新的声音信号。有很多免费的AI工具都可以用,像洪洪ingBird、魔音工坊、前阵子火遍全网的AI孙燕姿就是用这些做出来的。
·有了音频,重头戏来了!怎么做出以假乱真的口型?现在主流的开源图像生成软件,比如GeneFace,会先对人脸模型进行三维重建,再通过动态预测网络还原面部表情。只需要三分钟的原始素材,一部以假乱真的采访视频就能做出来。觉得步骤太复杂,也有软件能一站式搞定。
像这次大火的郭德纲讲英语就用到了HeyGen,背后团队还来自中国,只用传一段原视频就能一步到位直接做出翻译好的视频来,还有数字头像生成AI脚本撰写,啥都给你准备好,就是价钱有点贵,免费的得排队。
说到这儿还其实挺担心的,过去几年AI生成假新闻的事一直没断过,之前的技术还不完美,打眼一看就有穿帮,也就没在意过。现在AI视频真的连人眼也分不出来了,法规和监管也得及时跟上。