我知道相关性并不意味着因果关系,而是关系的强度和方向。简单的线性回归是否意味着因果关系?或者是否需要推理(t检验等)统计检验?
简单的线性回归是否意味着因果关系?
快速的答案是,不。您可以轻松得出不相关的数据,这些数据在回归时将通过各种统计测试。下面是一张来自 Wikipedia 的旧图片(由于某种原因,它最近已被删除),用于说明数据驱动的“因果关系”。
我们需要更多的海盗来给地球降温?
对于时间序列,有一个术语叫做“格兰杰因果关系”,它具有非常特定的含义。
http://en.wikipedia.org/wiki/Granger_causality
除此之外,“因果关系”在旁观者的眼中。
回归数学中没有明确说明因果关系,因此不需要明确解释斜率(强度和方向)或 p 值(即,如果人口中的关系为零)以因果关系。
话虽如此,我会说回归确实具有比估计两个变量之间的相关性更强烈的含义,即估计一个明确的方向关系。假设相关性是指Pearson 的 r,它通常没有明确的因果解释,因为度量是对称的(即,您可以切换哪个变量是 X,哪个是 Y,您仍然会有相同的度量)。此外,我怀疑的俗语“相关性并不意味着因果关系”是如此广为人知,以至于陈述两个变量是相关的,假设一个变量没有做出因果陈述。
回归分析中的估计效应不是对称的,因此通过选择右侧和左侧的变量,可以做出与相关性不同的隐含陈述。我怀疑人们打算在使用回归的绝大多数情况下(除了推理与预测)做出一些因果陈述。即使在简单地陈述相关性的情况下,我怀疑人们经常会想到一些隐含的因果推理目标。鉴于满足某些约束,相关性可能意味着因果关系!
相关性和回归都不能表明因果关系(如@bill_080 的回答所示),但@Andy W 表明回归通常基于明确固定(即独立)变量和明确(即随机)因变量。这些名称不适用于相关性分析。
引用 Sokal 和 Rohlf, 1969, p. 496
“在回归中,我们打算描述变量Y对自变量X的依赖性......以支持关于X变化可能导致Y变化的假设......”
“相比之下,我们主要关心的是两个变量是相互依赖的还是共同变化的——也就是说,它们是一起变化的。我们不会将一个变量表示为另一个变量的函数。”
Sokal、RR 和 FJ Rohlf,1969 年。生物统计学。弗里曼公司
从语义的角度来看,另一个目标是为良好的预测模型建立证据,而不是证明因果关系。为回归模型的预测值建立证据的一个简单过程是将数据分成两部分,并用一部分数据拟合回归,另一部分数据测试它的预测效果。
格兰杰因果关系的概念很有趣。