3.4 softmax 回归 | 昊卿的网站

type

status

date

slug

summary

3.4.1 分类问题

对于分类问题，我们常常采用独热编码（one-hot encoding）

这是一个向量，分量和类别一样多，与类别对应的分量设为 1，其他均为 0

这样可以有效的避免 1、2、3 这样以自然顺序命名对于程序造成的影响

为了估计概率，我们需要有多个输出的模型，以对应每个类别的输出

这里用神经网络图表示，这也是全连接层

对于输出结果的数值的，我们需要转换成概率，并且进行规范化，使得概率满足：

其中，最大概率对应的类表示预测结果中最优可能的项

这个损失函数称为交叉熵损失

信息熵是随机变量的不确定性度量，表示整个系统的信息平均不确定性

信息量指的是某个特定事件的发生所带来的信息的多少，其大小取决于事件发生的概率

如果把想象为：如果知道真实规律，我的“平均惊讶程度”是多少

那么则可以理解为：如果我用错误的认知 Q 来理解真实世界 P，我的“平均惊讶程度”是多少

此处的“惊讶程度”指的是数据偏离的程度

因此，我们希望尽可能降低数据的偏离程度，也就是降低交叉熵

在训练softmax回归模型后，给出任何样本特征，我们可以预测每个输出类别的概率。通常我们使用预测概率最高的类别作为输出类别。如果预测与实际类别（标签）一致，则预测是正确的。