谱声音嵌入的自动编码器结构图解
嵌入还有一个优点,就是他们通常比原始数据有着更低的维度。举个例子,一个自动编码器可以把有着3500个值的频谱压缩为一个长度为500的向量。简单地说,这样的向量的每一个值都可以描述像元音、声震粗糙度或调和性的高层次的谱特征——它们仅仅是例子,事实上一个自动编码器生成的统计上的共同特征的含义通常很难在原始语言中标记。
在下一个文章中,我们会拓展这个想法,采用新增内存来为声音频谱的时间产物生成嵌入。
这是我“用人工智能进行声音处理”的系列文章的第一部分。接下来,我们会讨论声音中的感觉记忆和时序依赖的核心概念。
参考文献:
[1] C. J. Plack, The Sense of Hearing, 2nd ed. Psychology Press, 2014.
[2] S. J. Elliott and C. A. Shera, “The cochlea as a smart structure,” Smart Mater. Struct., vol. 21, no. 6, p. 64001, Jun. 2012.
[3] A.M. Darling, “Properties and implementation of the gammatone filter: A tutorial”, Speech hearing and language, University College London, 1991.
[4] J. J. Eggermont, “Between sound and perception: reviewing the search for a neural code.,” Hear. Res., vol. 157, no. 1–2, pp. 1–42, Jul. 2001.
[5] T. P. Lillicrap et al., Learning Deep Architectures for AI, vol. 2, no. 1. 2015.
本文为 AI 研习社编译的技术博客,原标题 :Human-Like Machine Hearing With AI (1/3)
作者:Daniel Rothmann
翻译:悟空空、Glimmer
校对:邓普斯•杰弗
原文链接:https://towardsdatascience.com/human-like-machine-hearing-with-ai-1-3-a5713af6e2f8
本文来源于人人都是产品经理合作媒体 @雷锋网,翻译@悟空空、Glimmer
题图来自Unsplash,基于CC0协议。