白交 发自 凹非寺
量子位 报道 | 公众号 QbitAI
看你是人还是物,是猫还是狗。
卷积神经网络(CNN)最重要的用途就是图像分类。说起来,似乎很简单。
为什么不使用普通的神经网络呢?
那是因为在图像分类时,面临着图像大,物体的形态、位置不同等问题,这就给普通的神经网络带来了难题。
而,卷积神经网络就是来解决这个问题。
Facebook软件工程师Victor Zhou这篇入门贴,就介绍了什么是卷积神经网络。
截至目前,已经有47k访问量了。
已经对神经网络有所了解的同学,一起来看看吧。
MNIST手写数字分类首先,就以MNIST手写数字分类为例,这就是MNIST数据集的样本。
很简单,就是识别图像,然后将其分类为数字。
MNIST数据集中的每个图像均为28×28,我们看到,都是居中的灰度数字。
正常的神经网络其实就可以解决这个问题,首先将每张图像视为28×28=784维向量,将784维送到一个784维的输入层,堆叠几个隐藏层,然后用10个节点的输出层来完成,每个数字1个节点。
但这些数字居中,且图像较小,所以也就没有尺寸大、位置偏移的问题。但是我们知道实际生活中,情况并非如此。
好了,有了一个基本的了解之后,我们就进入了这个卷积神经网络的世界吧。
什么是卷积神经网络?顾名思义,卷积神经网络就是基本上只是由卷积层组成的神经网络,卷积层是基于卷积的数学运算。
而卷积层是由一组滤波器组成,你可以将其视为二维矩阵的数字。比如,这是一个3×3滤波器。