关于解释性与预测性建模的实用思考

机器算法验证 预测模型
2022-02-12 15:31:28

早在四月,我参加了 UMD 数学系统计小组研讨会系列的演讲,名为“解释还是预测?”。演讲由在 UMD 史密斯商学院任教的Galit Shmueli 教授发表。她的演讲基于她为题为“IS 研究中的预测与解释建模”的论文所做的研究,以及题为“解释还是预测?”的后续工作论文。.

Shmueli 博士的论点是,统计建模上下文中的预测性和解释性术语已经混为一谈,并且统计文献缺乏对差异的彻底讨论。在论文中,她对比了两者并讨论了它们的实际意义。我鼓励你阅读论文。

我想向从业者社区提出的问题是:

  • 您如何定义预测性练习与解释性/描述性练习?如果您可以谈论特定的应用程序,那将很有用。
  • 您是否曾经陷入使用其中一个的陷阱?我当然有。你怎么知道使用哪一个?
4个回答

一句话

预测建模是关于“可能发生什么?”,而解释性建模是关于“我们能做些什么?”

在许多句子中

我认为主要区别在于分析的目的是什么。我建议解释对于干预来说比预测更重要。如果你想做一些事情来改变结果,那么你最好解释一下为什么会这样。解释性建模,如果做得好,会告诉你如何干预(应该调整哪个输入)。但是,如果您只是想了解未来会是什么样子,而没有任何干预的意图(或能力),那么预测建模更可能是合适的。

作为一个非常松散的例子,使用“癌症数据”。

如果您为不同医院的癌症病房提供资金,使用“癌症数据”的预测建模将是合适的(或至少有用)。您实际上不需要解释人们为什么会患上癌症,而只需要准确估计需要多少服务。解释性建模在这里可能没有多大帮助。例如,知道吸烟会导致更高的癌症风险本身并不能告诉您是向 A 病房还是 B 病房提供更多资金。

如果您想降低全国癌症发病率,“癌症数据”的解释性模型将是合适的——预测模型在这里已经相当过时了。准确预测癌症发病率的能力几乎不可能帮助您决定如何降低癌症发病率。然而,知道吸烟会导致更高的癌症风险是有价值的信息——因为如果你降低吸烟率(例如通过使香烟更贵),这会导致更多的人风险更低,这(希望)会导致癌症的预期减少率。

以这种方式看待问题,我认为解释性建模将主要关注直接或间接控制用户的变量。可能需要收集其他变量,但如果您无法更改分析中的任何变量,那么我怀疑解释性建模是否有用,除非可能让您希望获得对这些变量的控制或影响这很重要。粗略地说,预测建模只是寻找变量之间的关联,无论是否由用户控制。您只需要知道输入/特征/自变量/等即可进行预测,但您需要能够修改或影响输入/特征/自变量/等以干预和改变结果.

在我看来,区别如下:

解释性/描述性

在寻求解释性/描述性答案时,主要关注点是我们拥有的数据,我们试图在考虑噪声后发现数据之间的潜在关系。

示例:定期锻炼(比如每天 30 分钟)真的会降低血压吗?为了回答这个问题,我们可能会从患者那里收集有关他们的运动方案和他们的血压值随时间推移的数据。目标是看看我们是否可以通过运动方案的变化来解释血压的变化。

血压不仅受到运动的影响,还受到多种其他因素的影响,例如一个人吃的钠量等。在上面的例子中,这些其他因素将被视为噪音,因为重点是梳理运动方案和运动之间的关系血压。

预言

在进行预测练习时,我们使用手头数据之间的已知关系推断未知数。已知关系可能来自解释性/描述性分析或一些其他技术。

例如:如果我每天运动 1 小时,我的血压可能会下降到什么程度?为了回答这个问题,我们可以使用以前发现的血压和运动方案之间的关系来进行预测。

在上述上下文中,重点不在于解释,尽管解释模型可以帮助预测过程。还有一些非解释性方法(例如,神经网络)擅长预测未知数,而不必增加我们对变量之间潜在关系性质的了解。

这里出现的一个实际问题是建模中的变量选择。变量可以是重要的解释变量(例如,具有统计学意义),但可能对预测目的没有用(即,将其包含在模型中会导致更差的预测准确性)。我几乎每天都在发表的论文中看到这个错误。

另一个区别是主成分分析和因子分析之间的区别。PCA 常用于预测,但对解释没有那么有用。FA 涉及额外的旋转步骤,这是为了改进解释(以及解释)。今天在 Galit Shmueli 的博客上有一篇关于这个的好帖子

更新:第三种情况出现在时间序列中,当一个变量可能是一个重要的解释变量但它对未来不可用时。例如,住房贷款可能与 GDP 密切相关,但这对于预测未来的住房贷款并没有多大用处,除非我们对 GDP 也有很好的预测。

尽管有些人发现根据所使用的模型/算法(例如,神经网络=预测)来考虑区别是最容易的,但这只是解释/预测区别的一个特定方面。这是我在数据挖掘课程中使用的一组幻灯片,用于从两个角度教授线性回归。即使仅使用线性回归和这个小例子,也会出现各种问题,导致解释性目标和预测性目标的不同模型(变量选择、变量选择、绩效测量等)

加利特