关于 George Box、Galit Shmueli 和科学方法?

机器算法验证 预测模型 aic 比克 哲学的 解释模型
2022-02-12 17:09:20

(这个问题似乎更适合哲学 SE。我希望统计学家能澄清我对 Box 和 Shmueli 陈述的误解,因此我将其发布在这里)。

George Box(ARIMA 成名)说:

“所有模型都是错误的,但有些模型是有用的。”

Galit Shmueli 在她著名的论文“解释或预测”中指出(并引用其他同意她的观点):

解释和预测是不一样的,有些模型在解释方面做得很好,即使它们在预测方面做得很差。

我觉得这两个原则在某种程度上是矛盾的。

如果模型不能很好地预测,它有用吗?

更重要的是,如果一个模型解释得很好(但不一定能很好地预测),那么它必须以某种方式是正确的(即没有错)。那么这与 Box 的“所有模型都是错误的”有何关系?

最后,如果一个模型解释得很好,但预测得不好,那它怎么科学?大多数科学划界标准(验证主义、证伪主义等)暗示科学陈述必须具有预测能力,或者通俗地说:一个理论或模型只有在可以被经验检验(或证伪)时才是正确的,这意味着它必须预测未来的结果。

我的问题:

  • Box 的陈述和 Shmueli 的想法是否确实矛盾,或者我是否遗漏了一些东西,例如一个模型没有预测能力但仍然有用吗?
  • 如果 Box 和 Shmueli 的陈述矛盾,那么一个模型是错误的并且预测不好,但仍然具有解释力,这意味着什么?换一种说法:如果一个人同时剥夺了正确性和预测能力,那么模型还剩下什么?

当模型具有解释能力但没有预测能力时,哪些经验验证是可能的?Shmueli 提到了一些事情,比如:使用 AIC 进行解释,使用 BIC 进行预测,等等……但我不明白这是如何解决问题的。使用预测模型,您可以使用 AIC、BIC、正则化等……但最终样本测试和生产中的性能决定了模型的质量。但是对于解释良好的模型,我看不出任何损失函数如何真正评估模型。在科学哲学中,存在不确定性的概念R2L1这在这里似乎是相关的:对于任何给定的数据集,人们总是可以明智地选择一些分布(或分布的混合)和损失函数,以使其适合数据(因此可以声称可以解释它)。此外,有人声称模型充分解释数据的而不是?)。LLp<0.05p<0.1p<0.01

  • 基于以上所述,由于不可能进行样本外测试,因此如何客观地验证解释良好但预测不佳的模型?
4个回答

让我从 George Box 的精辟引语开始,“所有模型都是错误的,但有些模型很有用”。这句话是对“实证主义”方法论进路的一个封装,它是一种在科学界有很大影响的哲学进路。这种方法在弗里德曼(1966)的经典方法论论文中(在经济理论的背景下)进行了详细描述。在那篇文章中,弗里德曼认为,任何有用的科学理论都必然构成对现实的简化,因此其假设总是在一定程度上偏离现实,甚至可能与现实大相径庭。将世界的复杂性降低到一套可管理的原则,以及对现实做出预测的准确性,并产生关于现实的新的可检验假设。因此,弗里德曼认为,“所有模型都是错误的”,因为它们都包含简化(因此背离)现实的假设,但“有些是有用的”,因为它们提供了一个简单的框架来对现实做出有用的预测。

现在,如果你阅读Box (1976)(他首先指出“所有模型都是错误的”的论文),你会发现他没有引用弗里德曼,也没有提到方法论实证主义。然而,他对科学方法及其特征的解释与弗里德曼的发展非常接近。特别是,两位作者都强调,科学理论将对现实做出预测,可以根据观察到的事实进行检验,然后可以将预测中的错误用作修正理论的基础。

现在,转到 Galit Shmueli 在Shmueli (2001)中讨论的二分法在本文中,Shmueli 比较了观察结果的因果解释和预测,并认为这些是不同的活动。具体来说,她认为因果关系是基于不直接体现在可衡量结果中的潜在结构,因此“可衡量的数据并不是其潜在结构的准确表示”(第 293 页)。因此,她认为统计分析的一个方面涉及对不可观察的潜在因果关系进行推断,而这些因果关系并未体现在结果的可衡量的反事实差异中。

除非我误解了某些东西,否则我认为可以公平地说,这个想法与 Box 和弗里德曼的实证主义观点相冲突,正如 Box 的引文所代表的那样。实证主义观点本质上说,除了那些表现在可测量结果中的那些之外,没有可接受的形而上学“构造”。实证主义仅限于考虑可观察的数据,以及建立在这些数据上的概念;它排除了先验的考虑形而上学的概念。因此,实证主义者会争辩说,因果关系的概念只有在它被定义为现实中可测量的结果的范围内才有效——在它被定义为与此不同的东西的范围内(正如 Shmueli 对待它),这将被视为形而上学的推测,在科学话语中将被视为不可接受的。

所以我认为你是对的——这两种方法本质上是冲突的。Box 使用的实证主义方法坚持认为有效的科学概念完全基于它们在现实中的表现,而 Shmueli 使用的替代方法则认为有一些“结构”是重要的科学概念(我们想要解释)但不能通过将它们与现实中可衡量的结果联系起来,在它们被“操作化”时得到完美的表现。

模型用于解释事物时,是对现实的简化。简化只是“以某种有用的方式出错”的另一个词。例如,如果我们将数字 3.1415926535898 舍入到 3.14,我们会犯错误,但这个错误让我们人类能够专注于该数字中最重要的部分。这就是模型用于解释的方式,它提供了对某些问题的见解,但必须从许多其他事物中抽象出来:我们人类只是不太擅长同时查看数千种事物。如果我们主要关心预测,我们希望尽可能地包含这数千个事物,但解释权衡是不同的。

Wikipedia 文章“ All models are wrong ”中给出了一个非常擅长预测但没有解释任何东西的模型示例例子是牛顿的万有引力模型。牛顿模型几乎总是给出与经验观察无法区分的预测。然而,这个模型极其不可信:因为它假设了一种力可以在任意大的距离上瞬间作用。

牛顿的模型已被爱因斯坦的广义相对论中给出的模型所取代。在广义相对论中,引力以有限的速度(光速)穿过空间。

牛顿模型不是广义相对论模型的简化。为了说明这一点,考虑一个从树上掉下来的苹果。根据广义相对论,苹果在没有地球对苹果施加任何力的情况下下落。(苹果倒下的主要原因是地球扭曲了时间,因此树根附近的时钟比树上高处的时钟运行得更慢。)因此,正如维基百科文章指出的那样,牛顿的模型从解释上来说是完全错误的看法。

Shmueli [2010] 的论文假定模型有两个目的:预测和解释。事实上,有几位作者表示有三个目的(参见例如 Konishi 和 Kitagawa [信息标准和统计建模,2008 年:§1.1] 和 Friendly & Meyer [离散数据分析,2016 年:§11.6])。这三个目的对应于三种逻辑推理:

  • 预测(对应演绎);
  • 参数估计(对应于归纳);
  • 结构的描述(对应于绑架)。

我是统计学的本科生,所以我不会称自己为专家,但这是我的两分钱。

模型不解释自己;人类解释它们。线性模型比神经网络和随机森林更容易理解,因为它们更接近我们的决策方式。的确,人工神经网络模仿人脑,但你不能通过一系列矩阵乘法来决定明天去哪家餐厅。取而代之的是,您会根据重要性在脑海中权衡某些因素,这本质上是线性组合。

“解释力”衡量模型与人类直觉的吻合程度,而“预测能力”衡量模型与感兴趣过程的潜在机制的吻合程度。它们之间的矛盾本质上是世界是什么与我们如何感知/理解它之间的差距。我希望这可以解释为什么“有些模型在解释方面做得很好,即使它们在预测方面做得很差”。

伊恩·斯图尔特曾经说过:“如果我们的大脑足够简单,我们可以理解它们,我们就会简单到无法理解。” 不幸的是,与宇宙甚至股票市场相比,我们的小人类大脑实际上非常简单(涉及很多大脑:)。到目前为止,所有的模型都是人脑的产物,所以它或多或少肯定是不准确的,这导致了 Box 的“所有模型都是错误的”。另一方面,模型不一定在技术上是正确的才能有用。例如,牛顿运动定律已被爱因斯坦证伪,但当物体不是大得离谱或快得离谱时,它仍然有用。

为了解决您的问题,老实说,我看不出 Box 和 Shmueli 的观点之间不兼容。您似乎认为“解释力”和“预测力”是二项式属性,但我认为它们位于频谱的两端。