关于何时更喜欢有偏估计而不是无偏估计,我们有一些问题和答案,但我没有在相反的问题上找到任何东西:
在什么情况下只考虑无偏估计量很重要?
很多重点都放在了无偏见的概念上,是介绍性的统计课程,但我从来没有读过对此有说服力的辩护。由于我们通常只收集一次数据,那么平均而言何时正确(除了它提供的可能的心理安慰)是有用的?在什么情况下需要平均是正确的?
我对哲学论点持开放态度,但更喜欢研究或行业的具体例子。
关于何时更喜欢有偏估计而不是无偏估计,我们有一些问题和答案,但我没有在相反的问题上找到任何东西:
在什么情况下只考虑无偏估计量很重要?
很多重点都放在了无偏见的概念上,是介绍性的统计课程,但我从来没有读过对此有说服力的辩护。由于我们通常只收集一次数据,那么平均而言何时正确(除了它提供的可能的心理安慰)是有用的?在什么情况下需要平均是正确的?
我对哲学论点持开放态度,但更喜欢研究或行业的具体例子。
我认为可以肯定地说,不存在需要无偏估计量的情况。例如,如果并且我们有,则有一个,你不可能关心。
话虽如此,我认为将无偏估计更多地视为好的事物的限制是很重要的。其他一切都保持不变,偏差越小越好。并且有很多一致的估计量,其中在中等样本中的偏差非常高,以至于估计量受到很大影响。例如,在大多数最大似然估计器中,方差分量的估计通常是向下偏差的。例如,在预测区间的情况下,面对过度拟合,这可能是一个非常大的问题。
简而言之,我极难找到需要真正无偏估计的情况。但是,很容易提出估计器的偏差是关键问题的问题。让估计量无偏可能从来都不是绝对要求,但让估计量无偏确实意味着有一个潜在的严重问题得到了解决。
在考虑了更多之后,我突然想到样本外错误是您要求的完美答案。估计样本外误差的“经典”方法是最大似然估计量,在正常数据的情况下,它减少到样本内误差。虽然这个估计量是一致的,但对于具有大自由度的模型,偏差是如此之大,以至于它会推荐退化模型(即使用严重过度拟合的模型估计样本外误差为 0)。交叉验证是一种对样本外误差进行无偏估计的聪明方法。如果您使用交叉验证来进行模型选择,您会再次向下偏向您的样本外误差估计......这就是为什么您持有验证数据集以获得对最终选定模型的无偏估计。
当然,我对真正无偏的评论仍然存在:如果我有一个估计器具有样本外误差的预期值 +,我会很乐意将它用于足够小的。但是交叉验证方法的动机是试图获得样本外误差的无偏估计。如果没有交叉验证,机器学习领域看起来会与现在完全不同。