type
status
date
slug
summary
tags
category
icon
password
3.4.1 分类问题
对于分类问题,我们常常采用独热编码(one-hot encoding)
这是一个向量,分量和类别一样多,与类别对应的分量设为 1,其他均为 0
这样可以有效的避免 1、2、3 这样以自然顺序命名对于程序造成的影响
3.4.2 网络架构
为了估计概率,我们需要有多个输出的模型,以对应每个类别的输出
这里用神经网络图表示,这也是全连接层

3.4.3 全连接层参数开销
3.4.4 softmax 运算
对于输出结果的数值的 ,我们需要转换成概率,并且进行规范化,使得概率满足:
- 非负
- 总和为 1
其中,最大概率对应的类表示预测结果中最优可能的项
3.4.5 小批量样本的矢量化
3.4.6 损失函数
3.4.6.1 对数似然
这个损失函数称为交叉熵损失
3.4.7 信息论基础
3.4.7.1 信息熵
信息熵是随机变量的不确定性度量,表示整个系统的信息平均不确定性
3.4.7.2 信息量
信息量指的是某个特定事件的发生所带来的信息的多少,其大小取决于事件发生的概率
3.4.7.3 重新审视交叉熵
如果把 想象为:如果知道真实规律,我的“平均惊讶程度”是多少
那么 则可以理解为:如果我用错误的认知 Q 来理解真实世界 P,我的“平均惊讶程度”是多少
此处的“惊讶程度”指的是数据偏离的程度
因此,我们希望尽可能降低数据的偏离程度,也就是降低交叉熵
3.4.8 模型预测和评估
在训练softmax回归模型后,给出任何样本特征,我们可以预测每个输出类别的概率。 通常我们使用预测概率最高的类别作为输出类别。 如果预测与实际类别(标签)一致,则预测是正确的。
3.4.9 小结
- softmax运算获取一个向量并将其映射为概率。
- softmax回归适用于分类问题,它使用了softmax运算中输出类别的概率分布。
- 交叉熵是一个衡量两个概率分布之间差异的很好的度量,它测量给定模型编码数据所需的比特数。
- 作者:昊卿
- 链接:hqhq1025.tech/article/d2l/softmax-regression
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。