我刚刚参加了考试,我们看到了两个变量。在独裁者游戏中,独裁者可以获得 100 美元,并且可以选择为自己发送或保留多少,年龄与参与者决定保留的金额之间存在正相关关系。
我的想法是,您无法从中推断出因果关系,因为您无法从相关性中推断出因果关系。我的同学认为你可以,因为例如,如果你将参与者分成三个不同的组,你可以看到他们在保留多少和分享多少方面有何不同,因此得出结论,年龄导致他们保留更多。谁是正确的,为什么?
我刚刚参加了考试,我们看到了两个变量。在独裁者游戏中,独裁者可以获得 100 美元,并且可以选择为自己发送或保留多少,年龄与参与者决定保留的金额之间存在正相关关系。
我的想法是,您无法从中推断出因果关系,因为您无法从相关性中推断出因果关系。我的同学认为你可以,因为例如,如果你将参与者分成三个不同的组,你可以看到他们在保留多少和分享多少方面有何不同,因此得出结论,年龄导致他们保留更多。谁是正确的,为什么?
一般来说,你不应该假设相关性意味着因果关系——即使在看起来这是唯一可能的原因的情况下。
考虑到还有其他与年龄相关的事情——例如文化的代际方面。也许这三个群体即使都变老了,也会保持不变,但下一代会逆势而上?
话虽如此,您可能是对的,年轻人更有可能保留更多的钱,但请注意还有其他可能性。
我可以从你的数据中假设几个因果关系。
测量年龄,然后测量保留的金额。年长的参与者更喜欢保留更多的钱(也许他们更聪明或更不理想化,但这不是重点)。
保留的金额是衡量的,然后是年龄。存更多钱的人会花更多时间数钱,因此在衡量年龄时会更老。
生病的人会保留更多的钱,因为他们需要钱来购买(可能是挽救生命的)药物或治疗。实际的相关性是疾病和保留的钱之间的关系,但这个变量是“隐藏的”,因此我们得出错误的结论,因为年龄和疾病的可能性与选择进行实验的人口群体相关。
(省略 143 个理论;我需要保持合理的简短)
结论:你是对的,但你的同学可能会声称自己正确了 147 倍。
另一个著名的相关性是低智商和每天看电视的时间。看电视是让一个人变笨,还是让笨人看更多的电视?它甚至可以两者兼而有之。
一般来说,从相关性推断因果关系是有问题的,因为相关性可能有许多其他原因。例如,由于混杂因素、选择偏差(例如,仅选择收入低于某个阈值的参与者)或因果效应导致的虚假相关性可能只是朝着另一个方向发展(例如,温度计与温度相关,但肯定不会导致它)。在上述每种情况下,您同学的程序可能会在没有因果关系的情况下找到因果关系。
但是,如果参与者是随机选择的,我们可以排除混杂因素和选择偏差。在这种情况下,要么年龄必须导致钱被保留,要么钱必须导致年龄。后者意味着强迫某人保留一定数量的钱会以某种方式改变他们的年龄。所以我们可以有把握地假设年龄导致金钱被保留。
请注意,因果效应可能是“直接”或“间接”。不同年龄的人会接受不同的教育,拥有不同数量的财富等,因此可能会选择保留不同数量的 100 美元。通过这些中介产生的因果效应仍然是因果效应,但却是间接的。
相关性是一个数学概念;因果关系是一种哲学思想。
另一方面,虚假相关是一个主要是技术性的(你不会在度量理论概率教科书中找到它)概念,可以以一种主要可操作的方式定义。
这个想法与科学中的证伪主义思想密切相关——其目标永远不是证明事物,而只是反驳它们。
统计学之于数学就像医学之于生物学一样。你被要求在丰富的技术知识的支持下做出最好的判断,但这些知识永远不足以覆盖整个世界。因此,如果您要以统计学家的身份做出判断并将其呈现给他人,则需要遵循某些质量标准;即,您正在提供合理的建议,让他们物有所值。这也意味着要考虑风险的不对称性——在医学检测中,给出假阴性结果的成本(这可能会阻止人们获得早期治疗)可能高于给出假阳性结果的成本(这会导致痛苦) .
在实践中,这些标准会因领域而异——有时是三盲随机对照试验,有时是工具变量和其他技术来控制反向因果关系和隐藏的常见原因,有时是格兰杰因果关系——过去一直与在场的其他东西,但不是相反的方向。它甚至可能是严格的正则化和交叉验证。