机器算法验证 - 什么时候相关性可以在没有因果关系的情况下有用？ - 吾爱随笔录

什么时候相关性可以在没有因果关系的情况下有用？

机器算法验证相关性预测模型因果关系

2022-01-28 06:24:17

许多统计学家的口头禅是“相关并不意味着因果关系”。这当然是真的，但这里似乎暗示的一件事是相关性几乎没有价值。这是真的？知道两个变量相关是没有用的吗？

我无法想象会是这样。我对预测分析不是很熟悉，但似乎如果X是的预测因子，那么无论因果关系如何 Y，它都可以用于预测Y基于的未来值。X

我在相关性中看到的价值是不正确的吗？如果不是，在什么情况下统计学家或数据科学家可以使用无因果关系的相关性？

4个回答

无论因果关系如何，相关性（或任何其他关联度量）对于预测都是有用的。假设您测量两个变量之间清晰、稳定的关联。这意味着知道一个变量的水平还可以为您提供有关另一个感兴趣变量的一些信息，您可以使用这些信息来帮助预测一个变量作为另一个变量的函数，最重要的是，根据该预测采取一些行动. 采取行动涉及更改一个或多个变量，例如在做出自动推荐或采用某些医疗干预时。当然，如果您更深入地了解两个变量之间的直接或间接关系，您可以做出更好的预测并更有效地采取行动。这种洞察力可能涉及其他变量，包括空间和时间变量。

这里已经有很多优点了。让我解释一下您的主张，即“似乎如果X是的一个预测因子Y，它将有助于预测Y基于的未来值X，而不管因果关系如何”。你是对的：如果你想要的只是能够Y从一个已知X值和一个已知的稳定关系中预测一个未知值，那么该关系的因果状态是无关紧要的。考虑一下：

您可以从原因预测结果。这是直观且无可争议的。
您还可以根据对结果的了解来预测原因。一些（但很少）患肺癌的人从不吸烟。因此，如果您知道某人患有肺癌，您可以很有信心地预测他们是/曾经是吸烟者，尽管吸烟是因果关系而癌症是结果。如果院子里的草是湿的，而洒水器没有运行，你可以预测下雨了，即使下雨是原因，湿草只是结果。等等。
您还可以从相同原因的已知结果预测未知结果。例如，如果比利和鲍比是同卵双胞胎，而我从未见过比利，但我知道鲍比是 5 英尺 10 英尺（178 厘米），我可以很有把握地预测比利也是 178 厘米，尽管事实上比利的身高不会导致鲍比的身高，鲍比的身高也不会导致比利的身高。

他们并没有否定相关性的重要性。只是倾向于将相关性解释为因果关系。

以母乳喂养为例。母亲几乎总是将关于母乳喂养的（观察性研究）结果解释为他们是否应该实际进行母乳喂养的建议。确实，平均而言，即使在控制了纵向的母亲和父亲年龄、社会经济地位等因素之后，母乳喂养的婴儿也往往是更健康的成年人。这并不意味着母乳喂养本身就是造成这种差异的原因，尽管它可能部分在食欲调节的早期发展中发挥作用。这种关系非常复杂，人们可以很容易地推测出一系列可能构成观察到差异的中介因素。

大量研究着眼于关联，以保证对正在发生的事情有更深入的了解。相关性并非没有用，它只是比因果关系低几个步骤，需要注意如何报告发现以防止非专家的误解。

你是对的，相关性很有用。因果模型优于关联模型的原因是——正如珀尔所说——它们是干预的神谕。换句话说，它们允许您进行假设性推理。因果模型回答了“如果我让 X 发生，Y 会发生什么？”这个问题。

但你并不总是需要假设性地推理。如果您的模型仅用于回答“如果我观察 X，我对 Y 了解多少？”之类的问题，那么您只需要一个关联模型。

其它你可能感兴趣的问题

上一篇从混合正态分布生成随机变量下一篇如何用一句话描述统计数据？