between worlds 吉他谱,wildworld吉他谱

首页 > 大全 > 作者:YD1662022-12-29 06:30:12

通过对人体系统进行建模,人工智能技术已经取得了重大突破。尽管人工神经网络是数学模型,仅能粗糙地模拟人类神经元的实际运作方式,但它们在解决复杂而模糊的现实问题中的应用却是深远的。此外,在神经网络中模拟建模人脑的结构深度,为学习到数据背后更有意义的内涵开辟了广泛的可能性。

between worlds 吉他谱,wildworld吉他谱(1)

在图片识别和处理中,来自视觉系统卷积神经网络(CNNs)中的复杂且空间不变的神经元的灵感,也对我们的技术产生了很大的改进。如果您对将图片识别技术应用于音频频谱图感兴趣,请查看我的文章“用于音频处理的卷积神经网络(CNNs)和频谱图有什么问题?”

只要人类的感知能力超过机器,我们就可以通过理解人类系统的原理来学习获益。在感知任务方面,人类非常熟练,且在机器听觉领域,人类的理解能力和当前的AI技术之间的对比尤为明显。考虑到在视觉处理领域中受到人类系统启发所带来的好处,我建议我们可以通过神经网络应用于视觉领域相似的过程,运用在机器听觉领域一定会获益。

between worlds 吉他谱,wildworld吉他谱(2)

本文的流程框架

在本系列文章中,我将详细介绍使用AI进行实时音频信号处理的一个框架,该框架是Aarhus大学和智能扬声器制造商Dynaudio A/S合作开发的。它的灵感主要来自于认知科学, 认知科学试图将生物学、神经科学、心理学和哲学的观点结合起来,以更好地理解我们的认知能力。

认知声音属性

也许关于声音最抽象方式,在于我们作为人类如何理解它。虽然信号处理问题的解决方案必须在强度、频谱和时间这些低级别属性参数的范围内进行处理,但最终目标通常是可认知的:以我们对声音包含的意义认知方式转换信号。

例如,如果希望以编程方式改变一段语音说话者的性别,则必须在定义其较低级别特征之前,以更有意义的术语来描述该问题。说话者的性别可以被认为是由多种因素构成的认知属性:语音的音高和音色、发音的差异、单词和语言选择的差异,以及对这些属性如何与性别联系起来的理解。

这些参数可以用较低级别的特征来描述,例如强度、频谱和时间这些属性,但只有在更复杂的组合中,它们才能形成高级别的意义表示。这形成了音频特征的层次结构,从中可以推断出声音的“含义”。人类声音的认知属性可以认为由声音的强度、频谱和统计特性的时间序列的组合模式来表示。

between worlds 吉他谱,wildworld吉他谱(3)

可用于从数字音频中获得含义的功能层次。

神经网络(NNs)非常擅长提取抽象的数据表示,因此非常适合检测声音中的认知属性。为了构建一个基于此目的的系统,让我们先来研究声音在人类听觉器官中的表现方式,我们可以用它来激发通过神经网络来处理声音意义的表示。

耳蜗表示

人类听觉始于外耳,外耳首先由耳郭组成。耳郭充当声音频谱预处理的一种形式,其中输入声音根据其相对于收听者的方向而被修改。然后声音通过耳郭中的开口进入耳道,随后通过共振这种放大频率(范围为~1-6kHz)的方式,来改变输入声音的频谱特性[1]。

between worlds 吉他谱,wildworld吉他谱(4)

首页 123下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.