(这个问题似乎更适合哲学 SE。我希望统计学家能澄清我对 Box 和 Shmueli 陈述的误解,因此我将其发布在这里)。
George Box(ARIMA 成名)说:
“所有模型都是错误的,但有些模型是有用的。”
Galit Shmueli 在她著名的论文“解释或预测”中指出(并引用其他同意她的观点):
解释和预测是不一样的,有些模型在解释方面做得很好,即使它们在预测方面做得很差。
我觉得这两个原则在某种程度上是矛盾的。
如果模型不能很好地预测,它有用吗?
更重要的是,如果一个模型解释得很好(但不一定能很好地预测),那么它必须以某种方式是正确的(即没有错)。那么这与 Box 的“所有模型都是错误的”有何关系?
最后,如果一个模型解释得很好,但预测得不好,那它怎么科学?大多数科学划界标准(验证主义、证伪主义等)暗示科学陈述必须具有预测能力,或者通俗地说:一个理论或模型只有在可以被经验检验(或证伪)时才是正确的,这意味着它必须预测未来的结果。
我的问题:
- Box 的陈述和 Shmueli 的想法是否确实矛盾,或者我是否遗漏了一些东西,例如一个模型没有预测能力但仍然有用吗?
- 如果 Box 和 Shmueli 的陈述不矛盾,那么一个模型是错误的并且预测不好,但仍然具有解释力,这意味着什么?换一种说法:如果一个人同时剥夺了正确性和预测能力,那么模型还剩下什么?
当模型具有解释能力但没有预测能力时,哪些经验验证是可能的?Shmueli 提到了一些事情,比如:使用 AIC 进行解释,使用 BIC 进行预测,等等……但我不明白这是如何解决问题的。使用预测模型,您可以使用 AIC、BIC、或正则化等……但最终样本测试和生产中的性能决定了模型的质量。但是对于解释良好的模型,我看不出任何损失函数如何真正评估模型。在科学哲学中,存在不确定性的概念这在这里似乎是相关的:对于任何给定的数据集,人们总是可以明智地选择一些分布(或分布的混合)和损失函数,以使其适合数据(因此可以声称可以解释它)。此外,有人声称模型充分解释数据的而不是或?)。
- 基于以上所述,由于不可能进行样本外测试,因此如何客观地验证解释良好但预测不佳的模型?