生活中,AI图像识别无处不在。图像搜索、自动驾驶汽车、人脸识别技术……这一切,都离不开一项技术——卷积神经网络,这项技术就像AI的眼睛。
什么是卷积神经网络?
20世纪50至60年代,大卫·休伯尔和托斯坦·威泽尔对猫的视觉进行了研究,他们发现在一幅画面进入猫的视野之后,猫大脑中负责视觉的神经元被不同的东西激活了,有的神经元对线条比较敏感,有的神经元对大块颜色比较敏感,这些神经细胞一起工作,帮助生物识别各种复杂的图像,这项研究让大卫和托斯坦获得了1981年诺贝尔生理学或医学奖,也启发了人工智能领域一个非常重要的算法——卷积神经网络。
卷积神经网络在识别图片时有两个重要过程——卷积和汇聚。
卷积的过程是由卷积核来完成的,一张图片在计算机眼里其实是一个个像素点组成的矩阵,卷积核不是单独去考虑每一个像素点上的信息,而是同时对某个区域的像素点信息进行处理,这样可以综合考虑相邻像素点的信息,更好地提取出更高级的特征,以帮助神经网络做出更好的判断。
汇聚又称直化。图片往往是一个较大的矩阵,汇聚能够把一块区域里的信息压缩成一个信息。例如对一个16×16的矩阵,可以通过汇聚的方法提取2×2格子里颜色最深一格的信息,就能将其变成8×8的矩阵;如果再进行一次相同的汇聚,可以把8×8的矩阵变成4×4的矩阵。虽然图像汇聚后会有一些变化,但是依然保留了整个图像的基本特征。
AI的眼睛是如何工作的?
卷积和汇聚让卷积神经网络能够非常好地对图片信息进行提取,对于图像的学习处理效率有了非常大的提升。当然,卷积神经网络也会使用与神经网络相同的反向传播算法,不断根据已知结果逆向调整神经网络中的参数,以做出越来越准确的判断。
卷积神经网络是在20世纪80年代末出现的,直到2000年以后,人们发现卷积神经网络和GPU的配合,能够让卷积神经网络的学习训练速度大大加快,因此,卷积神经网络迅速被应用到了生活的各个方面。在购物软件中识别商品种类,在旅途中识别花花草草,在线办理业务时识别面部都要依赖卷积神经网络。并且,卷积神经网络最初仅是用于处理视觉图像信息,经过迭代和发展,AI能够更好地看见、理解我们的世界,在音频识别自然语言处理等方面有着光明的前景。
来源:科普中国
编辑:白欣雨
审校:高淑青