什么时候有一个无偏的估计量很重要?

机器算法验证 估计 偏见 无偏估计器
2022-03-14 02:00:23

关于何时更喜欢有偏估计而不是无偏估计,我们有一些问题和答案,但我没有在相反的问题上找到任何东西:

在什么情况下只考虑无偏估计量很重要?

很多重点都放在了无偏见的概念上,是介绍性的统计课程,但我从来没有读过对此有说服力的辩护。由于我们通常只收集一次数据,那么平均而言何时正确(除了它提供的可能的心理安慰)是有用的?在什么情况下需要平均是正确的?

我对哲学论点持开放态度,但更喜欢研究或行业的具体例子。

1个回答

我认为可以肯定地说,不存在需要无偏估计量的情况。例如,如果并且我们有,则有一个,你不可能关心。μ=1E[μ^]=μ+ϵϵ

话虽如此,我认为将无偏估计更多地视为好的事物的限制是很重要的。其他一切都保持不变,偏差越小越好。并且有很多一致的估计量,其中在中等样本中的偏差非常高,以至于估计量受到很大影响。例如,在大多数最大似然估计器中,方差分量的估计通常是向下偏差的。例如,在预测区间的情况下,面对过度拟合,这可能是一个非常大的问题。

简而言之,我极难找到需要真正无偏估计的情况。但是,很容易提出估计器的偏差是关键问题的问题。让估计量无偏可能从来都不是绝对要求,但让估计量无偏确实意味着有一个潜在的严重问题得到了解决。

编辑:

在考虑了更多之后,我突然想到样本外错误是您要求的完美答案。估计样本外误差的“经典”方法是最大似然估计量,在正常数据的情况下,它减少到样本内误差。虽然这个估计量是一致的,但对于具有大自由度的模型,偏差是如此之大,以至于它会推荐退化模型(即使用严重过度拟合的模型估计样本外误差为 0)。交叉验证是一种对样本外误差进行无偏估计的聪明方法。如果您使用交叉验证来进行模型选择,您会再次向下偏向您的样本外误差估计......这就是为什么您持有验证数据集以获得对最终选定模型的无偏估计。

当然,我对真正无偏的评论仍然存在:如果我有一个估计器具有样本外误差的预期值 +,我会很乐意将它用于足够小的但是交叉验证方法的动机是试图获得样本外误差的无偏估计。如果没有交叉验证,机器学习领域看起来会与现在完全不同。ϵϵ