type
status
date
slug
summary
tags
category
icon
password

4.6.1 重新审视过拟合

线性模型没有考虑到特征之间的相互作用,仅仅是指定特征权重,而忽略了特征之间相互作用
泛化性和灵活性之间的这种基本权衡被描述为偏差-方差权衡(bias-variance tradeoff)
与线性模型不同,神经网络并不局限于单独查看每个特征,而是学习特征之间的交互。

4.6.2 扰动的稳健型

这里我们从另一个角度评价预测模型的好坏:平滑性/稳定性
即:模型不应对输入的微小变化而敏感,即稳定、平滑、连续,不突变
因此,我们可以通过在计算后续层之前向网络的每一层注入噪声,增强平滑性
这个方法被称为暂退法
暂退法在前向传播过程中,计算每一内部层的同时注入噪声
这种方法之所以被称为暂退法,因为我们从表面上看是在训练过程中丢弃(drop out)一些神经元
在整个训练过程的每一次迭代中,标准暂退法包括在计算下一层之前将当前层中的一些节点置零

我的问题:引入噪声和丢掉神经元有啥联系

这里的 “增加噪声”“丢掉神经元(dropout)” 的关系在于 它们都在训练过程中引入随机性,以增强模型的稳定性和泛化能力。尽管表面上看,一个是 注入噪声,一个是 丢弃神经元,但它们的作用机制是相似的——都在训练过程中破坏“过度拟合的依赖关系”,从而提高模型的泛化能力。

4.6.6 小结

  • 暂退法在前向传播过程中,计算每一内部层的同时丢弃一些神经元。
  • 暂退法可以避免过拟合,它通常与控制权重向量的维数和大小结合使用的。
  • 暂退法将活性值h替换为具有期望值h的随机变量。
  • 暂退法仅在训练期间使用。
 
4.7 前向传播、反向传播和计算图4.5 权重衰减
Loading...
昊卿
昊卿
一个普通的干饭人🍚
最新发布
5.2 参数管理
2025-3-11
5.1 层和块
2025-3-11
4.9 环境和分布偏移
2025-3-11
4.8 数值稳定性和模型初始化
2025-3-11
4.7 前向传播、反向传播和计算图
2025-3-11
4.6 暂退法 (Dropout)
2025-3-11