type
status
date
slug
summary
tags
category
icon
password
4.1.1 隐藏层
4.1.1.1 线性模型可能会出错
线性模型有些过于死板了,因为虽然权重对结果有影响,即使是单调性,也不一定是线性的
因此我们需要探索 和 之间更合理的关系
对于深度神经网络,我们使用观测数据来联合学习隐藏层表示和应用于该表示的线性预测器
4.1.1.2 在网络中加入隐藏层
加入隐藏层可以帮助我们克服线性模型限制
下图是多层感知机

然而,全链接层的参数开销很高,因此需要在参数和有效性之间权衡
4.1.1.3 从线性到非线性
对于线性网络,具有局限:
• 没有激活函数,无论你堆叠多少个线性层,网络本质上都只能学习线性映射。 • 网络复杂度并没有增加,依然无法拟合复杂的数据分布。
我们可以引入激活函数:
激活函数的非线性就像一个“开关”,能对输入区间进行“分段”或“弯折”,使整体函数不能再通过简单的线性变换还原成原始的线性组合。
有了激活函数,就不可能再将我们的多层感知机退化成线性模型
我们可以叠加具有激活函数的隐藏层,使模型更有表达能力
4.1.2 激活函数
4.1.2.1 ReLU 函数

对于求导:ReLU 要么让参数消失、要么通过
有更好的优化表现,可以减轻梯度消失问题

4.1.2.2 Sigmoid 函数
常常被称为挤压函数
它是一个平滑的、可微的阈值单元近似

导数:
当输入为0时,sigmoid函数的导数达到最大值0.25; 而输入在任一方向上越远离0点时,导数越接近0

4.1.2.3 tanh 函数
长得跟Sigmoid很像,但是关于原点对称

导数:

- 作者:昊卿
- 链接:hqhq1025.tech/article/%20d2l/mlp
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。