CNN，卷积神经网络，是属于深度学习范畴的一个算法框架，它在图片处理方面很有建树，来了解一下。

前言

之前自己有一篇关于神经网络的介绍，里面只是介绍了最基本的神经网络，它是全连接的。

全连接的神经网络，每一层的每个神经元都接收了所有前一层的输入。这就带来了一个问题，就是我们需要训练好多好多的参数，那么势必要减慢我们的训练速度。在机器学习中，训练速度某种程度上也影响了我们的训练精度。因为如果训练速度很快，我们就可以进行更多的调参，更容易找到最优解。

CNN 的结构就巧妙地减少了需要训练的参数数量。

简述

CNN，全称 convolution neural network，卷积神经网络。

使用范围：

为了更加形象地讲述，我们假设现在对一张鸟类图片进行 object detection。

从常识角度来讲，图片其实具有三个特点：

输入层 input layer
隐含层
1. 卷积层（convolutional layer）
2. 池化层（pooling layer）
3. Flatten 层
4. 全连接层（fully-connected layer）
输出层

输入输出层，没什么好说的。我们直接来看隐含层。

隐含层中的全连接层就相当于一个正常的全连接神经网络，不过它的输入是池化层的输出。而卷积层、池化层，这两层通常都是会重复出现的，如下图：

着重来看一下隐含层的前三部分。

卷积层的实现，其实就是实现了核心思想的前两条。

它主要是做一件事情：将输入通过多个卷积核（kernel）（或者叫做filter），生成 result maps。

比较形象的过程可以看下图：

最左边的就是一个输入，第二个的就是一个卷积核（其实就是一个matrix），最右边的就是卷积核的输出们。

卷积核每次只关心和它同样大小的输入，然后矩阵内积后，产生出一个输出。接着，移动卷积核观察的区域，依次产生所有输出。最后，我们就得到一个新的矩阵。

每个卷积核都会生成一个矩阵作为输出。一个卷积层可能有多个卷积核。

池化层做的事情，对应了核心思想的第三条。

在尝试学习内核之前，它会将卷积图像中的像素区域合并在一起（缩小图像）。

它做的事情比较简单，就是把一个矩阵拉平，变为一个高维向量，作为全连接层的输入。