6.1 从全连接层到卷积

type

status

date

slug

summary

6.1.1 不变性

假设我们想从一张图片中找到某个物体。合理的假设是：无论哪种方法找到这个物体，都应该和物体的位置无关。

卷积神经网络正是将空间不变性（spatial invariance）的这一概念系统化，从而基于这个模型使用较少的参数来学习有用的表示。

现在，我们将上述想法总结一下，从而帮助我们设计适合于计算机视觉的神经网络架构。
平移不变性（translation invariance）：不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应，即为“平移不变性”。
局部性（locality）：神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，这就是“局部性”原则。最终，可以聚合这些局部特征，以在整个图像级别进行预测。

6.1.2 多层感知机的限制

公式看不懂

6.1.3 卷积

卷积是当把一个函数“翻转”并移位x时，测量和之间的重叠。当为离散对象时，积分就变成求和。

(1) 卷积的过程

• 你拿一个小滤波器（比如 3×3 的方块）放到输入图像的某个位置。

• 这个滤波器和图像的这部分 逐像素相乘（也就是加权求和）。

• 计算出的值就是新图像（特征图）上的一个像素点。

• 然后你 把滤波器往右或往下挪一点，重复这个过程，直到整个图像都被扫描过。

这样你就得到了一个新的图像，它可以是原图的模糊版本、边缘检测版本，或者其它特征提取结果。

(2) 数学公式

对一个 3×3 的卷积核来说，卷积操作就是：

意思是：

• 把小窗口（卷积核）放在 (i,j) 位置的图像上。

• 取出窗口覆盖的所有像素值。

• 和卷积核的对应元素相乘并求和，得到一个新的像素值。

• 移动窗口，重复操作，最终形成新的输出图像 H。

3. 卷积的作用

卷积的本质是从输入中提取有用的信息。不同的卷积核可以：

• 检测边缘（例如 Sobel 滤波器）。

• 模糊图像（例如高斯模糊）。

• 提取特定的图案（如检测水平或垂直线）。

• 用于深度学习，自动学习出最合适的特征（比如检测猫的耳朵、人的脸部）。

4. 总结

• 卷积 = 滤波器扫描图像，逐点计算加权求和。

• 卷积核 = 盖章工具，决定图像如何变换。

• 深度学习用卷积来提取重要特征，比如边缘、纹理、物体形状等。

你可以把 CNN 理解成：

• 第一层的卷积核学会了检测边缘（直线、斜线）。

• 第二层的卷积核学会了检测更复杂的形状（比如圆形、方形）。

• 更深的层学会了识别高层语义信息（比如猫的耳朵、人的眼睛）。

最终 CNN 能够识别整张图片里到底是什么，就像你用手电筒扫描一幅画，逐渐理解画中的内容一样！

课程中是用函数翻转、互相关来解释的，但是我看不太懂

6.1.4.1 通道

图像一般包含三个通道（三元色）

比如包含1024×1024×3个像素。前两个轴与像素的空间位置有关，而第三个轴可以看作每个像素的多维表示。

因此图像是一个三维张量

如何在多通道（彩色图像）上应用卷积？

假设我们有一个 3 通道的彩色图片（RGB），我们要用 一个 3 通道的卷积核 来处理它。

• 以前的 二维卷积核（filter） 只是一个 2D 小矩阵，比如：

这是一个 3×3 的权重矩阵，只适用于单通道（灰度图像）。

• 但对于 3 通道的彩色图像，我们的 卷积核也需要有 3 个通道，形状变成：

这个卷积核：

• 不是一个单独的 3×3 矩阵，而是 3 个 3×3 矩阵叠在一起（分别作用于 R、G、B 通道）。

• 计算方法是 分别对 R、G、B 通道进行卷积，然后把结果相加，得到一个最终的值。

所以，在每个位置 (i,j) 处，我们计算：

• 这里是把不同通道的结果加在一起，得到最终的输出值。

• 这个输出值就形成了新的特征图（Feature Map）。

6.1.5 小结

图像的平移不变性使我们以相同的方式处理局部图像，而不在乎它的位置。

局部性意味着计算相应的隐藏表示只需一小部分局部图像像素。

在图像处理中，卷积层通常比全连接层需要更少的参数，但依旧获得高效用的模型。

卷积神经网络（CNN）是一类特殊的神经网络，它可以包含多个卷积层。

多个输入和输出通道使模型在每个空间位置可以获取图像的多方面特征。