4.4 模型选择、欠拟合与过拟合

type

status

date

slug

summary

4.4.1 训练误差和泛化误差

训练误差：模型在训练数据集上计算得到的误差

泛化误差：模型应用在同样从原始样本的分布中抽取的无限多数据样本时，模型误差的期望

为了优化我们的训练模型，我们需要尽可能使我们的数据从相同的分布中独立提取，称为独立同分布假设，意味着对数据进行采样的过程没有进行“记忆”

更复杂的模型与更少的样本会导致训练误差下降、泛化误差增大

模型复杂性有很多复杂的影响因素：参数数量、参数分布、迭代次数……

神经网络中，我们可以采用 早停 (early stopping) 的方法，避免过多的训练迭代对于复杂性的提升

在确定好超参数前，我们不希望用测试集，为了避免过拟合

因此我们这里使用验证集，由于通常数据量有限，我们不得不在训练时多次使用一个数据

于是，常用的方法是吧数据分为三份：训练集、测试集、验证集

欠拟合：模型过于简单，无法捕获特征与结果的关系

过拟合：模型过于复杂，仅仅学习到训练数据的特征，泛化能力差，表现为训练误差与验证误差差距大

模型越复杂，越容易过拟合

模型越简单，越容易欠拟合

训练数据集中的样本越少，我们就越有可能（且更严重地）过拟合