在“解释还是预测?” , 公关。Galit Shmueli 说,有时一个不太真实的模型可以比一个更真实的模型更好地预测。为什么会这样?什么时候会发生?它是如何发生的?解释是模型预测的权衡吗?
什么时候一个不太真实的模型会比一个更真实的模型更好地预测?
我相信这是统计数据中最反直觉的方面之一。真的很难缠住你的头。这里的关键概念是偏差-方差权衡的概念。它已在 CV 的多个地方讨论过,您可能想查看其他一些答案,例如此处或此处,我之前已在此处讨论过。撇开我的不谈,其他两个都很好,值得你花时间。
我将尝试快速了解这个想法。让我先定义一些术语。首先,Shmueli 所说的“真实”模型是指实际的数据生成过程;您的估计模型越接近真实数据生成过程,它就越真实。例如,如果,并且一个模型拟合产生,这比另一个产生的拟合更真实。另一方面,更好的预测意味着让你的尽可能接近实际的,特别是对于样本外数据。注意这里的目标差异(因为这对于理解问题至关重要):getting尽可能接近与让尽可能接近。所以 Shmueli 的观点是,有时你的可能更接近实际的,而你的是通过一个过程估计的,平均而言,产生的值比真实的。现在,这怎么可能?
关键是存在与从样本数据估计的参数相关的方差。对于给定的样本,有时最大似然估计碰巧离真实值更远,有时更接近。很有可能出现这样一种情况,即参数估计的采样分布的方差如此之大,以至于经常在其真实值附近反弹如此之远,以至于它们不值多少钱。这里要记住的是,经典统计基于所谓的“最佳线性无偏估计量”,即所有无偏估计量中方差最小的估计量。但是,可能有其他方法可以尝试获得不公正的估计. 通常,这些是在机器学习(计算机科学的一个子领域)中开发的。在某些情况下,即使该估计值的抽样分布不以真实值为中心(即,它是有偏差的),也可能有一个估计值不会从真实值反弹得那么远。考虑到所有这些,对于预测的准确性而言,重要的是由于诱导偏差导致的不准确性如何与 BLUE 参数估计的高方差引起的不准确性进行权衡(因此得名)。具体来说,如果由于较高方差导致的不准确性大于由于偏差导致的不准确性,则不太真实的模型将给出更好的预测。