我在这个问题中看到了两个有些不相关的问题。
- 是否有可能对预测模型中的各个系数做出可靠的推断,特别是如果我们有大量的预测变量并使用某种形式的变量选择和/或正则化?
- 预测模型中的系数可以因果解释吗?
我对第一个问题的简短回答是肯定的,这是可能的,但正确地做到这一点并不简单,而且它是当前激烈研究的主题。
对于第二个问题,我发现安全答案是否定的,预测模型中的系数通常没有因果解释。这一点应该让合作者/客户非常清楚,他们可能没有在因果模型方面接受过严格的培训。
推理
Emmanuel Candes 在联合统计会议上发表了 2017 年 Wald 讲座,题为“选择性推理发生了什么?,这为了解挑战是什么以及状态是什么提供了一个很好的起点。
一个主要挑战,特别是当预测变量的数量很大时,是如何正确计算和报告不确定性,当模型/预测变量已被数据选择时。
Candes 详细解释了他对仿冒过滤器的贡献(主要是与 Rina Barber 一起) ,这是控制所选预测变量的错误发现率的一个非常好的主意。
另一个问题是如何可靠地计算系数的置信区间。Candes 在他的演讲中谈到了这一点,但请参阅论文
Exact post-selection inference,以及Lee 等人对套索的应用。有关更多详细信息,另请参阅 Berk 等人的论文Valid post-selection inference。
R 包Selective Inference实现了这些想法。另一个需要考虑的相关 R 包是hdi,另请参见 Dezeure 等人的论文High-Dimensional Inference: Confidence Intervals, p-Values and R-Software hdi。
请注意,关于目标参数实际上是什么的选择性推理中有一个重要的讨论!它是具有所选预测变量的模型中的(理论)系数,还是包含所有预测变量的模型中的系数?阅读 Berk 等人的论文。关于这种差异的一些讨论。
我通常会通过模拟/引导来研究报告系数和所选预测变量的不确定性(记住在引导中包含完整的变量选择过程),但实际上可能需要一些工作来确保引导置信区间是合适的,请参阅引导套索Chatterjee 和 Lahiri 的估算器。
我应该说,上面讨论的挑战从根本上是自然的频繁性。参见例如 Gelman 的 post Bayesian inference 完全解决了多重比较问题,以获得更多的贝叶斯观点。
因果关系
回归模型已被用于计量经济学和流行病学中,例如一些领域,以估计观察数据的因果效应。我发现,从历史上看,这并不总是通过清晰地讨论什么实际上构成因果关系来完成的。因果关系被认为是通过呼吁“没有不可测量的混杂因素”和设置的其他类似属性来证明的,以试图证明所包含的回归变量正是证明估计系数的因果解释所需要的那些。但通常没有明确的概念或数学框架来定义因果关系和因果效应。
统计文献中如何处理辛普森悖论的历史说明了珀尔在他的论文《 理解辛普森悖论》中描述的问题。
对我来说非常清楚的是,因果关系是一个超越概率模型的概念,可以使用反事实、结构方程模型或图形模型 (DAG) 等框架对其进行形式化。这些不是不相关的框架,但提供了稍微不同的概念和语言来介绍感兴趣的基本参数:因果效应。
在某些情况下,可能会将预测(回归)模型中的系数解释为因果效应,但我想说,如果模型针对使用观察数据的大量潜在预测变量的纯预测性能进行优化,则不太可能出现这种情况.
Hernan 和 Robins即将出版的因果推理书是了解因果模型的好地方。本书的第二部分专门讨论了因果推理模型的使用。
有时可以使用预测模型来估计因果关系,但这可能需要一些独创性。正如 Hernan 和 Robins 所描述的,逆概率加权依赖于概率权重的预测模型。Peters、Bühlmann 和 Meinshausen最近的论文Causal inference by using invariant prediction: Identification and confidence interval依赖于因果模型在不同(未指定)干预下是不变的,而非因果关联则不然。
无论如何,我强烈建议不要将(回归)系数粗心解释为因果效应。如果对因果影响感兴趣,则应认真对待,并应采用适当的方法来估计感兴趣的影响。