初音未来是如何诞生的（初音未来是怎么开始火的） - 原点资讯

两首歌之间的线性插值与NSynth插值的对比

2017年2月，一个来自加拿大蒙特利尔的由Yoshua Bengio带领的团队发表了SampleRNN及其代码。它通过用一种层级结构的递归神经网络，来一段样本一段样本地生成音频。

这个研究受到了Ishaan Gulrajani的实验的影响。Ishaan曾经在原始的音频训练了一个层级结构版的char-rnn模型。

初音未来是如何诞生的,初音未来是怎么开始火的(9)

简化版的SampleRNN结构：在一个层级结构的递归网络中，第二层和第三层在更慢的时间跨度，而和神经网络相结合的第一层则在最快的时间跨度中，每一层都使用相同的上采样率（上采样率为4）

☟基于同一个人的几百小时的演讲数据集训练的SampleRNN。

https://soundcloud.com/samplernn/samplernn-blizzard-mu-law-1

☟根据所有的32首贝多芬的钢琴奏鸣曲训练的SampleRNN。

https://soundcloud.com/samplernn/samplernn-music-1

☟由Richard Assar在32小时长的橘梦乐团（德国电子音乐先驱团体）音乐素材上训练得到的结果。

https://soundcloud.com/psylent-v/samplernn-tangerine-dream-1

SampleRNN 和WaveNet都需要非常长的时间来训练（超过一星期），并且如果不用优化的算法（比如fast-wavenet），他们会比实时生成音频的速度慢好几倍。为了减少训练和生成音频的时间，研究者们使用16千赫兹和8位数的音频数据。

但是，对于像谷歌和百度那样的公司，音频生成主要应用在把文字变成语音，这就对生成的实时性提出了很高的要求。2017年3月，谷歌发表了Tacotron研究成果。该研究成果通过把一连串的字母或文本作为输入，谱表示作为下一步的输出，从而逐片段地产生音频。

初音未来是如何诞生的,初音未来是怎么开始火的(10)

Tacotron的结构，显示了许多技术的结合，比如注意力模型（attention），双向递归神经网络（bidirectional RNNs），卷积网络技术（convolution）等等。

Tacotron的演示样本与WaveNet的相似，仅有一些细微的差异。逐帧生成音频的一个缺点是，最后的合成依赖于Griffin-Lim相位重建法，但是这个方法并不能很好地应对多音字或者噪音的干扰。所以，这个结构被局限在了演讲音频（有可能单声道的乐器也适用，但是我还没有听说过任何的例子）。

百度在Tacotron的基础上建立了Deep Voice2研究项目，它加入了一些音频生成的后处理从而提高了声音的质量。现在有许多其他的生成演讲音频的研究，但是很少是关于生成音乐的。

这种生成音频的研究的下一步发展方向在哪里呢？

另一个正在被开发的领域是基于语料库的合成方式（离散的或连续的）与片段级的表示方法的结合。连续合成在音频合成中是非常常见的(在音频合成领域，也被称为“单元选择”) 。

这些技术在声音设计方面也有一段很长的历史，比如CataRT系统合成音色。这种基于语料库的合成方式的一大缺点是它不可能生成“一段”在原来的语料库中从来没有出现过的音频。也就是说，如果你在巴赫（德国作曲家）的所有作品作为语料库的基础上训练一个模型，并且巴赫从来没有写过C小调七和弦，那么这个模型永远不可能生成一个C小调七和弦。

尽管这个模型学习怎样生成和弦里的每一个音符，甚至学习了怎样表示对应的片段，但你还是没法通过样本音乐来合成C小调七和弦。想要解决这个问题，也许可以在逐帧的离散模型以及对音频的分解研究的交叉领域内找到突破口。

说到研究方法，我反复遇到以下两个问题。第一，我们应该使用何种声音表式呢？我们应该把音频当作成独立的样本、还是拥有大多数单声道音调内容的音频谱帧、网格里的一个音高、或者是一个声音合成器里的特征？在声音表式中，我们需要用到多少音乐领域的专业知识？

第二，我们想要怎样让这些系统互相作用？我们想要系统们从一整个音乐历史文档中学习到一个怎样的大致结果，雷同的还是标新立异的？为了生成整个音乐作品集，或者和我们即兴创作音乐？我会谨慎的对待那些声称这些问题只有一个答案的的人，如果真的只有一个答案，那么我们就需要延展我们在声音表达方面和互相作用的模式上的想象力。

我发现，如果用算法生成的音乐作品集越唾手可得，那么就越可能触发记者们的问题：“这个会让人类音乐家被淘汰吗？”通常研究者们会说他们“没有尝试替代人类”，但是他们在尝试“开发新的工具”，或者他们鼓励人类音乐家“把算法当作作品创作中的辅助工具”。把创造性的人工智能是作为“扩展”人类创造过程的一个工具可以让令人放心。

但是有没有可能，人工智能最终能从无到有地创造流行金曲，或者你最喜欢的歌？我觉得最大的问题不是人类艺术家或者音乐家会不会被人工智能替代，而是什么样的作品能被我们接受成“艺术”或者“音乐”。

可能你最喜欢的创作型歌手不能被替代，因为你需要这些和弦与歌词能够如此美妙动听的原因是有人类在其背后创作。但是当你在一个酒吧随着音乐跳舞的时候，你不需要那首音乐也一定由人类创作，因为你注意到的仅仅是别人也都在随着音乐摇摆。

初音未来是如何诞生的,初音未来是怎么开始火的(11)