我得到了这个问题:
如果相关性并不意味着因果关系,你如何发现因果关系?
在一次采访中。
我的回答是:你做某种形式的 A/B 测试。面试官不断催促我换一种方法,但我想不出任何方法,他也不会告诉我我最初的反应是否正确。
还有其他方法吗?我的回答正确吗?
我得到了这个问题:
如果相关性并不意味着因果关系,你如何发现因果关系?
在一次采访中。
我的回答是:你做某种形式的 A/B 测试。面试官不断催促我换一种方法,但我想不出任何方法,他也不会告诉我我最初的反应是否正确。
还有其他方法吗?我的回答正确吗?
有几种方法可以解决这个问题。你说得对,A/B 测试就是其中之一。今年的诺贝尔经济学奖是因为在研究反贫困政策方面的开创性实地实验而获得的。
否则,您可以使用以下替代方法之一:
我想给你一个哲学和科学的答案:
在理论上和原则上,因果关系是无法观察到的。它从来没有,也永远不会。举个简单的例子:当你在这个网站上输入帖子时,当你按下键盘上的按钮并且屏幕上出现字母时,你就假设了一个因果关系。首先,因为您观察到击键和屏幕上出现的字母之间的相关性。其次,因为你有一个关于你脑海中正在发生的事情的因果关系模型,你认为它是合理的(这基本上是键盘是用于打字的输入设备)。
但是,两者都不是因果关系,您无法观察因果关系。可能是每次您按键时,一个隐形恶魔都会在您的屏幕上创建字母。这就是哲学的观点和答案。
科学的答案是观察因果关系:您需要操纵输入数据,控制其他一切并观察结果。由于您不是设计研究的心理学家,而是分析数据,这意味着您需要随着时间的推移获得数据。
因此,例如,如果您的假设是生活在人口稠密的城市会增加患临床抑郁症的风险:那么您将需要一个生活在大城市的人的样本,这些人后来患上了临床抑郁症。并且不仅仅是变量“确实住在大城市”和“患有临床抑郁症”之间的正相关。您还需要控制其他自变量。
实现这一点的另一种方法是在实验室环境中,您可以明确地操纵变量(并且更容易控制其他自变量)。然而,这种方法与数据科学并没有太大关系。
简要地...
选项1:
随机对照试验。“黄金标准”。
选项 2:
有关温和的介绍,请参阅 Pearl 的The Book of Why
不确定这会增加什么,但是如果您需要哲学的另一种想法,那么早在 1960 年代,我们在哲学课上就被教导休谟的 3 个因果关系标准:(1)时间优先(假定的原因在时间之前) ; (2) 可观察到的经验相关性;(3) 排除了所有对立的假设。
假设标准#3实际上是不可能的,那么将永远无法证明因果关系。