形成预测模型时产生的错误的常见分解为三部分。
1)贝叶斯错误:即使是最好的预测器有时也会出错。想象一下根据性别预测身高。如果您有可用的最佳预测器,您仍然会产生错误,因为身高不仅仅取决于性别。最好的预测器通常称为贝叶斯预测器。
2) 近似误差:在形成预测模型时,因为我们想要一个易于处理的问题,并且因为我们不想过度拟合数据(见 3),我们将我们的模型集限制在某个系列。例如,在普通最小二乘回归中,我们通常将自己限制为具有固定方差的正态噪声的线性模型。如果数据生成机制的性质不遵循这些规则,那么即使是我们自己限制的这个家族中最好的预测器也会比贝叶斯预测器有更多的错误。
3)估计误差:一旦我们将自己限制在某个预测变量家族中,我们必须使用我们的数据从该家族中选择一个预测变量。如果我们没有选择正确的怎么办?然后我们会产生更多的错误。需要明确的是,我不是指偶然选择错误的预测器,而是通过对有限数据集的统计推断。
机器学习中最基本的问题之一是近似误差和估计误差之间的相互作用。随着我们扩大我们的预测变量家族,我们的近似误差单调减少,因为我们能够捕捉更复杂的关系。然而,随着我们的预测变量家族的增加,我们的估计误差会随着我们过度拟合而增加。
一个极端的例子是将多项式模型拟合到标量数据,。想象一下,数据是由一些三次多项式加误差生成的。现在假设我们增加多项式的最大次数。 xiyid=0,1,2,3,…
第一个预测将是样本均值,有很多近似误差,估计误差很小(但仍然有一些,因为这很可能不是真正的均值)。随着的增加,我们用近似误差换取估计误差。 d
一旦我们达到,我们可能会做出最好的预测,毕竟,我们拥有生成贝叶斯预测器所需的所有灵活性,所以我们只受到数据大小的限制。d=3
最终,随着的增加,我们的训练集将完全没有错误,并且我们的数据将产生一些根本不存在的高阶关系。d