type
status
date
slug
summary
tags
category
icon
password

3.4.1 分类问题

对于分类问题,我们常常采用独热编码(one-hot encoding)
这是一个向量,分量和类别一样多,与类别对应的分量设为 1,其他均为 0
这样可以有效的避免 1、2、3 这样以自然顺序命名对于程序造成的影响

3.4.2 网络架构

为了估计概率,我们需要有多个输出的模型,以对应每个类别的输出
这里用神经网络图表示,这也是全连接层
notion image

3.4.3 全连接层参数开销

3.4.4 softmax 运算

对于输出结果的数值的 ,我们需要转换成概率,并且进行规范化,使得概率满足:
  1. 非负
  1. 总和为 1
其中,最大概率对应的类表示预测结果中最优可能的项

3.4.5 小批量样本的矢量化

3.4.6 损失函数

3.4.6.1 对数似然

这个损失函数称为交叉熵损失

3.4.7 信息论基础

3.4.7.1 信息熵

信息熵是随机变量的不确定性度量,表示整个系统的信息平均不确定性

3.4.7.2 信息量

信息量指的是某个特定事件的发生所带来的信息的多少,其大小取决于事件发生的概率

3.4.7.3 重新审视交叉熵

如果把 想象为:如果知道真实规律,我的“平均惊讶程度”是多少
那么 则可以理解为:如果我用错误的认知 Q 来理解真实世界 P,我的“平均惊讶程度”是多少
此处的“惊讶程度”指的是数据偏离的程度
因此,我们希望尽可能降低数据的偏离程度,也就是降低交叉熵

3.4.8 模型预测和评估

在训练softmax回归模型后,给出任何样本特征,我们可以预测每个输出类别的概率。 通常我们使用预测概率最高的类别作为输出类别。 如果预测与实际类别(标签)一致,则预测是正确的。

3.4.9 小结

  • softmax运算获取一个向量并将其映射为概率。
  • softmax回归适用于分类问题,它使用了softmax运算中输出类别的概率分布。
  • 交叉熵是一个衡量两个概率分布之间差异的很好的度量,它测量给定模型编码数据所需的比特数。
 
4.1 多层感知机3.3 线性回归的简洁实现
Loading...
昊卿
昊卿
一个普通的干饭人🍚
最新发布
5.2 参数管理
2025-3-11
5.1 层和块
2025-3-11
4.9 环境和分布偏移
2025-3-11
4.8 数值稳定性和模型初始化
2025-3-11
4.7 前向传播、反向传播和计算图
2025-3-11
4.6 暂退法 (Dropout)
2025-3-11