术语“估计误差”是什么意思?

机器算法验证 机器学习 估计 错误
2022-03-22 03:29:17

当我遇到以下句子时,我正在阅读一些关于机器学习的笔记:

首先,我们可能有很大的估计误差这意味着,即使 x 和 y 之间的真实关系是线性的,我们也很难根据一个小的(并且可能有噪声的)训练集来估计它。我们估计的参数不会完全正确。训练集越大,估计误差越小。Snθ^

我认为这些笔记试图对这个术语的含义给出一个直观的解释,但我不确定我是否完全理解它。估计错误是否意味着我们估计参数的方式是错误的,即使我们从正确的分类器集中进行选择?假设我们的数据确实是线性的,但我们仍然未能将其分离。这是一个正确的例子吗?

此外,任何与偏差和方差概念相关的答案(或过拟合和欠拟合,将不胜感激!)

我正在寻找一个直观的解释,如果存在的话,一个严格的数学解释该术语的含义,那将是太棒了!

4个回答

形成预测模型时产生的错误的常见分解为三部分。

1)贝叶斯错误:即使是最好的预测器有时也会出错。想象一下根据性别预测身高。如果您有可用的最佳预测器,您仍然会产生错误,因为身高不仅仅取决于性别。最好的预测器通常称为贝叶斯预测器。

2) 近似误差:在形成预测模型时,因为我们想要一个易于处理的问题,并且因为我们不想过度拟合数据(见 3),我们将我们的模型集限制在某个系列。例如,在普通最小二乘回归中,我们通常将自己限制为具有固定方差的正态噪声的线性模型。如果数据生成机制的性质不遵循这些规则,那么即使是我们自己限制的这个家族中最好的预测器也会比贝叶斯预测器有更多的错误。

3)估计误差:一​​旦我们将自己限制在某个预测变量家族中,我们必须使用我们的数据从该家族中选择一个预测变量。如果我们没有选择正确的怎么办?然后我们会产生更多的错误。需要明确的是,我不是指偶然选择错误的预测器,而是通过对有限数据集的统计推断。

机器学习中最基本的问题之一是近似误差和估计误差之间的相互作用。随着我们扩大我们的预测变量家族,我们的近似误差单调减少,因为我们能够捕捉更复杂的关系。然而,随着我们的预测变量家族的增加,我们的估计误差会随着我们过度拟合而增加。

一个极端的例子是将多项式模型拟合到标量数据想象一下,数据是由一些三次多项式加误差生成的。现在假设我们增加多项式的最大次数。 xiyid=0,1,2,3,

第一个预测将是样本均值,有很多近似误差,估计误差很小(但仍然有一些,因为这很可能不是真正的均值)。随着的增加,我们用近似误差换取估计误差。 d

一旦我们达到,我们可能会做出最好的预测,毕竟,我们拥有生成贝叶斯预测器所需的所有灵活性,所以我们只受到数据大小的限制。d=3

最终,随着的增加,我们的训练集将完全没有错误,并且我们的数据将产生一些根本不存在的高阶关系。d

在一篇研究论文中发现了这一点

在此处输入图像描述

希望能帮助到你。

F成为一个函数族,f是给定训练数据集的最佳函数Dn,R(f)是一个函数,可以估计给定函数的损失f.R是所有功能(包括但不限于F)。

预期风险 - 最小统计风险 =E[R(f)]R=(E[R(f)]inffinFR(f))+(inffFR(f)R)= 估计误差 + 近似误差

或者换句话说,估计误差估计从给定训练数据集 F 中选择 f 的算法有多好估计函数族有多好。fF

直觉是这样的:想象你必须听别人说什么并转录。如果你和一个人坐在一个安静的房间里,这比在音乐爆炸的夜总会里要容易得多。这个人用同样的声音说同样的话,但由于后一种情况下的噪音,很难听清他在说什么。现在,如果您戴着耳机,而对方正在对着降噪麦克风讲话,那就另当别论了。事实上,根据所使用的设备,在隔离房间和夜总会中转录语音时,您可能会得到相同的错误率。

这就是估计错误:由于数据中噪声的干扰和估计方法的结合,你不会正确地理解这个人说的每一个字。“更好”的估计方法可以让您消除很多噪音。您希望数据中的噪声更少,但您也需要良好的估计方法。