几年前,我第一次阅读了 Shmueli 的“解释或预测”(2010 年),这对我来说是最重要的读物之一。经过这样的阅读,几个很大的疑问得到了解决。
在我看来,你注意到的矛盾并不像看起来那么重要。我试着一起回答你的两个问题。
我的主要论点是,您的第 3 点没有出现在第 307 页(这里有详细信息),而是出现在讨论的开头——偏差-方差权衡论点(第 1.5 节;特别是第 293 页的结尾)。您的第 3 点是文章的核心信息。(见编辑)
您的第 1 点和第 2 点与模型选择的子参数有关。在这个阶段,解释模型和预测模型之间的主要重要实际区别并未出现。预测模型的分析必须涉及样本外的数据,而在解释模型中并非如此。
在预测框架中,首先我们进行模型估计,然后进行模型选择,例如评估模型(超)参数调整;最后,我们对新数据进行了模型评估。
在解释性框架中,模型估计/选择/评估很难区分。在这个框架中,理论上的考虑似乎比 BIC 和 AIC 之间的详细区别更重要。
在 Shmueli (2010) 中,真实模型的概念旨在作为暗示实质性因果意义的理论总结。因果推理是目标。[例如,您可以阅读:“适当的解释模型选择是以受约束的方式进行的……研究人员可能会选择保留一个因果协变量,该变量具有很强的理论依据,即使在统计上不显着。” 第 300 页]
现在,真实模型在因果推理辩论中的作用是我非常感兴趣的,它代表了我在这个网络社区上提出的几个问题的核心。例如,您可以阅读:
计量经济学中的回归和因果关系
经济学中的结构方程和因果模型
因果关系:结构因果模型和 DAG
今天我的猜测是,真实模型的通常概念过于简单,无法进行详尽的因果推理。充其量我们可以将其解释为非常特殊类型的珀尔结构因果模型。
我知道,在某些条件下,BIC 方法允许我们选择真正的模型。然而,这个结果背后的故事听起来我太穷了,无法进行详尽的因果推理。
最后,AIC 和 BIC 之间的区别似乎并不那么重要,最重要的是,它不影响文章的主要观点(你的 3)。
编辑:为了更清楚。这篇文章的主要信息是解释和预测是不同的东西。预测和解释(因果关系)是涉及不同工具的不同目标。在不了解差异的情况下将它们混为一谈是一个大问题。偏差-方差权衡是证明区分预测和解释的必要性的主要理论点。从这个意义上说,您的第 3 点是本文的核心。
EDIT2
在我看来,这里的事实是本文解决的问题过于广泛和复杂。然后,与往常相比,矛盾和/或悖论等概念应该被情境化。对于一些阅读您的问题但没有阅读文章的读者来说,似乎应该完全或至少在大多数情况下拒绝该文章,直到有人没有解决矛盾。我的观点是,事实并非如此。
可以说,作者可以简单地跳过模型选择细节,核心信息可以保持不变,绝对。事实上,文章的核心不是关于实现良好预测(或解释)模型的最佳策略,而是表明预测和解释是不同的目标,意味着不同的方法。从这个意义上说,您的第 1 点和第 2 点是次要的,这一事实解决了矛盾(在上述意义上)。
另一方面,AIC 让我们更喜欢长期而不是短期回归这一事实,这一事实与您在第 3 点所指的论点相矛盾。在这个意义上,悖论和/或矛盾仍然存在。
也许悖论来自于以下事实,即第 3 点背后的论点,偏差-方差权衡,在有限样本数据中是有效的;在小样本中可以是大量的。在无限大样本的情况下,参数的估计误差消失,但可能的偏差项没有,那么真实模型(在经验意义上)在预期预测误差的意义上也是最好的。现在AIC良好的预测特性只能渐进地实现,在小样本中它可以选择参数过多的模型,然后会出现过拟合。在这种情况下,很难准确地说出样本量的重要性。
然而,为了解决小样本的问题,开发了 AIC 的修改版本。见这里:https ://en.wikipedia.org/wiki/Akaike_information_criterion#Modification_for_small_sample_size
我做了一些微积分作为例子,如果这些没有错误:
对于 2 个参数的情况(如 Shmueli 示例中的情况),如果我们的 obs 少于 8 个,AIC 会比 BIC 惩罚更多(如您所说)。如果我们有超过 8 个但少于 14 个 obs,AICc 比 BIC 惩罚更多。如果我们有 14 个或更多 obs,BIC 又是更多的惩罚者
对于 5 个参数的情况,如果我们的 obs 少于 8 个,AIC 会比 BIC 惩罚更多(如您所说)。如果我们有超过 8 个但少于 19 个 obs,AICc 比 BIC 惩罚更多。如果我们有 19 个或更多的 obs,BIC 又是更多的惩罚者
对于 10 个参数的情况,如果我们的 obs 少于 8 个,AIC 会比 BIC 惩罚更多(如您所说)。如果我们有超过 8 个但少于 28 个 obs,AICc 比 BIC 惩罚更多。如果我们有 28 个或更多的 obs,那么 BIC 又是更多的惩罚者。
最后让我说一下,如果我们仍然非常接近作者的话,我们可以读到她没有明确建议在预测中使用 AIC,在解释中使用 BIC(如您在第 1 点所报告的那样)。她基本上说:在解释模型中,理论考虑是相关的,在预测中没有。这就是这两种选型区别的核心所在。那么 AIC 只是作为“流行指标”呈现出来,它的流行来自于它背后的想法。我们可以阅读:“一个流行的预测指标是样本内的 Akaike 信息标准 (AIC)。Akaike 从预测的角度推导出 AIC,其中模型的目的不是准确推断“真实分布”,而是尽可能准确地预测未来数据”。