推理和预测模型

机器算法验证 预测模型 p 值 推理 回归系数 偏见
2022-03-22 19:32:24

我工作中的一些人对开发预测回归模型(prm)产生的系数感兴趣。

我有点不愿意使用这些系数来解释预测变量可能对响应产生或不产生的影响。有时有用的是可变重要性,尽管这似乎不太有趣。

对于我向我报告模型的一些人来说,我觉得预测分析和因果分析之间的区别并不清楚。

我的问题是:

  • 使用prm中的系数进行推理是否合法?

我在工作中通常使用的prm如下:

  1. 弹性网络/LASSO - 高斯和 logit

  2. 增强型 GAMLSS

很多人告诉我这个系数太不可靠了,不应该考虑,特别是对于大型模型。如果对因果效应有很大兴趣,那么应该优先考虑建立额外的因果模型。

PS:我的部门是保守和老式的,有很多老人(没有冒犯),很多人喜欢与 SAS 合作(冒犯)

2个回答

我在这个问题中看到了两个有些不相关的问题。

  • 是否有可能对预测模型中的各个系数做出可靠的推断,特别是如果我们有大量的预测变量并使用某种形式的变量选择和/或正则化?
  • 预测模型中的系数可以因果解释吗?

我对第一个问题的简短回答是肯定的,这是可能的,但正确地做到这一点并不简单,而且它是当前激烈研究的主题。

对于第二个问题,我发现安全答案是否定的,预测模型中的系数通常没有因果解释。这一点应该让合作者/客户非常清楚,他们可能没有在因果模型方面接受过严格的培训。

推理

Emmanuel Candes 在联合统计会议上发表了 2017 年 Wald 讲座,题为“选择性推理发生了什么?,这为了解挑战是什么以及状态是什么提供了一个很好的起点。

一个主要挑战,特别是当预测变量的数量很大时,是如何正确计算和报告不确定性,当模型/预测变量已被数据选择时。

Candes 详细解释了他对仿冒过滤器的贡献(主要是与 Rina Barber 一起) ,这是控制所选预测变量的错误发现率的一个非常好的主意。

另一个问题是如何可靠地计算系数的置信区间。Candes 在他的演讲中谈到了这一点,但请参阅论文 Exact post-selection inference,以及Lee 等人对套索的应用。有关更多详细信息,另请参阅 Berk 等人的论文Valid post-selection inference

R 包Selective Inference实现了这些想法。另一个需要考虑的相关 R 包是hdi,另请参见 Dezeure 等人的论文High-Dimensional Inference: Confidence Intervals, p-Values and R-Software hdi

请注意,关于目标参数实际上是什么的选择性推理中有一个重要的讨论!它是具有所选预测变量的模型中的(理论)系数,还是包含所有预测变量的模型中的系数?阅读 Berk 等人的论文。关于这种差异的一些讨论。

我通常会通过模拟/引导来研究报告系数和所选预测变量的不确定性(记住在引导中包含完整的变量选择过程),但实际上可能需要一些工作来确保引导置信区间是合适的,请参阅引导套索Chatterjee 和 Lahiri 的估算器。

我应该说,上面讨论的挑战从根本上是自然的频繁性。参见例如 Gelman 的 post Bayesian inference 完全解决了多重比较问题,以获得更多的贝叶斯观点。

因果关系

回归模型已被用于计量经济学和流行病学中,例如一些领域,以估计观察数据的因果效应。我发现,从历史上看,这并不总是通过清晰地讨论什么实际上构成因果关系来完成的。因果关系被认为是通过呼吁“没有不可测量的混杂因素”和设置的其他类似属性来证明的,以试图证明所包含的回归变量正是证明估计系数的因果解释所需要的那些。但通常没有明确的概念或数学框架来定义因果关系和因果效应。

统计文献中如何处理辛普森悖论的历史说明了珀尔在他的论文《 理解辛普森悖论》中描述的问题。

对我来说非常清楚的是,因果关系是一个超越概率模型的概念,可以使用反事实、结构方程模型或图形模型 (DAG) 等框架对其进行形式化。这些不是不相关的框架,但提供了稍微不同的概念和语言来介绍感兴趣的基本参数:因果效应

在某些情况下,可能会将预测(回归)模型中的系数解释为因果效应,但我想说,如果模型针对使用观察数据的大量潜在预测变量的纯预测性能进行优化,则不太可能出现这种情况.

Hernan 和 Robins即将出版的因果推理书是了解因果模型的好地方。本书的第二部分专门讨论了因果推理模型的使用。

有时可以使用预测模型来估计因果关系,但这可能需要一些独创性。正如 Hernan 和 Robins 所描述的,逆概率加权依赖于概率权重的预测模型。Peters、Bühlmann 和 Meinshausen最近的论文Causal inference by using invariant prediction: Identification and confidence interval依赖于因果模型在不同(未指定)干预下是不变的,而非因果关联则不然。

无论如何,我强烈建议不要将(回归)系数粗心解释为因果效应。如果对因果影响感兴趣,则应认真对待,并应采用适当的方法来估计感兴趣的影响。

Frank Harrell在他的“回归建模策略”(2015)中提供了一系列可能的建模策略(第 4.12 节,如果您能够获得副本),其中一些可能被认为是滑稽的(“开发一个执行差且难以解释”),但他接着为回归模型开发了一种策略,该策略提供了准确的预测,然后讨论了如何改进该模型以实现准确的效果估计,并评论说“这些模型的效果估计必须涉及对总体响应值的准确预测”。实际上,如果您没有准确预测目标的模型,您能否准确估计预测变量的效应大小的值似乎值得怀疑。

Harrell 指出了一些有用的考虑因素,以确保提供良好准确性的模型可以提供良好的预测效应估计。例如,一个是严格注意交互效果。另一个是缺失数据插补的作用,特别是如果一个变量的影响大小是高优先级的,它有很多缺失值,例如,如果模型准确性是唯一的目标,插补缺失值可能是明智的,但如果估计那个特定的目标就不明智了效果是目标。

同时,以上意味着可以在没有获得每个预测器效果的准确估计的情况下实现关于目标的准确度水平。您还提到了因果分析,其中一位评论者正确地观察到,您可以在不准确理解因果关系的情况下准确估计相关性。

总体而言,它开始看起来像一个层次结构,其中强大的预测模型构成了准确估计预测效应的基础,而预测效应的准确预测估计可能是因果分析的开始。然后,您的主要问题的答案是“是的,在已仔细分析模型以确保效果估计的合法性的条件下,使用预测模型中的系数进行推理是合法的”。