4.1 多层感知机 | 昊卿的网站

type

status

date

slug

summary

4.1.1 隐藏层

线性模型有些过于死板了，因为虽然权重对结果有影响，即使是单调性，也不一定是线性的

因此我们需要探索和之间更合理的关系

对于深度神经网络，我们使用观测数据来联合学习隐藏层表示和应用于该表示的线性预测器

加入隐藏层可以帮助我们克服线性模型限制

下图是多层感知机

然而，全链接层的参数开销很高，因此需要在参数和有效性之间权衡

对于线性网络，具有局限：

• 没有激活函数，无论你堆叠多少个线性层，网络本质上都只能学习线性映射。 • 网络复杂度并没有增加，依然无法拟合复杂的数据分布。

我们可以引入激活函数：

激活函数的非线性就像一个“开关”，能对输入区间进行“分段”或“弯折”，使整体函数不能再通过简单的线性变换还原成原始的线性组合。

有了激活函数，就不可能再将我们的多层感知机退化成线性模型

我们可以叠加具有激活函数的隐藏层，使模型更有表达能力

对于求导：ReLU 要么让参数消失、要么通过

有更好的优化表现，可以减轻梯度消失问题

常常被称为挤压函数

它是一个平滑的、可微的阈值单元近似

导数：

当输入为0时，sigmoid函数的导数达到最大值0.25；而输入在任一方向上越远离0点时，导数越接近0

长得跟Sigmoid很像，但是关于原点对称

导数：