随着数字技术与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。
AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展。市场潜力逐渐显现。与此同时,在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的 AIGC 应用也都在快速发展。
四、应用场景文本生成从现有的落地场景来看,我们将其划分为应用型文本和创作型文本生成,前者的进展明显优于后者。此外,从应用推广的角度来说,辅助文本创作是目前落地最为广泛的场景。
应用型文本生成应用型文本大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。2015年发展至今,商业化应用已较为广泛,最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。据分析师评价,由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。Narrative Science 创始人甚至曾预测,到 2030 年,90%以上的新闻将由机器人完成。
在结构化写作场景下,代表性垂直公司包括Automated Insights(美联社Wordsmith)、NarrativeScience、textenaine.io、AX Semantics、Yseop、Arria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。
创作型文本生成创作型文本主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。
我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍,目前文字生成主要捕捉的是浅层次,词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确,在篇章上连贯通顺的要求,长文本写作对干
议论文写作、公文写作等等具有重要意义。未来四到五年,可能会出现比较好的千字内容。
除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基干事实的,创作型文本还需要特别关注情感和语言表达艺术。我们认为,短期内创作型文本更适合在特定的赛道下,基于集中的训练数据及具体的专家规则进行场景落地。
在创作型文本领域,代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy Al、Rasa.io、LongShot.Al、彩云小梦等。
文本辅助生成除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。尽管目前能够提升生产力,但我们认为相对于实现技术意义上的AI生成,能否结合知识图谱等提供素材联想和语句参考等更具有实用意义。
这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。
重点关注场景长期来看,我们认为闲聊型文本交互将会成为重要潜在场景,例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基干GPT 3开发的文本探索类游戏Aldungeon均已获得了不错的消费者反馈。
随着线上社交逐渐成为了一种常态,社交重点向转移AI具有其合理性,我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛,集中在精神心理领域的聆心智能、开发了AIdungeon的Latitude.io等。
音频及文字—音频生成整体而言,此类技术可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐,语音克隆以及心理安抚等功能性音乐的自动生成。
TTS(Text-to-speech)场景TTS在AIGC领域下已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。
目前技术上的的关键,在于如何通过富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习》。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法,代表模型包括WaveNet、Deep Voice及Tacotron等。
目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUl)、Readspeaker、DeepZen和Sonantic。
随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基干文档自动生成解说配音,上线有150 款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。
在TTS领域,语音克隆值得特别关注。语音克隆是本质上属于指定了目标语音(如特定发言人)的TTS。技术流程如下:
该技术目前被应用于虚拟歌手演唱、自动配音等,在声音IP化的基础上,对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod.Resemble Ai、Respeecher、DeepZen、Sonantic、VoicelD、Descript。
乐曲/歌曲生成AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
其中,AI作曲可以简单理解为“以语言模型(目前以Transformer为代表,如谷歌Megenta、OpenAlJukebox、AIVA等)为中介,对音乐数据进行双向转化(通过MIDI等转化路径)”。此方面代表性的模型包括MelodyRNN、Music Transformer。据Deepmusic介绍,为提升整体效率,在这一过程中,由于相关数据巨大往往需要对段落,调性等高维度的乐理知识进行专业提取,而节奏、音高、音长等低维度乐理信息由AI自动完成提取。