我们如何知道相关性是否显着?

机器算法验证 回归 相关性
2022-03-22 19:45:51

假设我们有连续的数据(X1,Y1),,(Xn,Yn). 假设rx,y是之间的 Karl-Pearson 相关系数Xi'沙Yi的。对于什么范围的值rx,y, 我们真的可以确定两者之间可能确实存在线性关系吗?Xi'沙Yi' 并继续预测Y通过使用线性回归?

我确信关于这个问题的主题应该是一个经过充分研究的主题。我在这里做了一点搜索;找不到相关帖子。非常感谢对上述问题的任何答案或对此类研究的指示。

4个回答

对于 rx,y 的值范围,我们可以 [...] 继续使用线性回归来预测 Y?

如果关系确实是线性的,那么任何相关值都可以起作用;线性回归在整个相关范围内(包括 0)表现得应有尽有。您甚至不需要事先检查相关性(它似乎没有任何用途,但通常的回归计算尚未涵盖)。

但是,这是一个很大的如果。您可以获得任何相关性(除了恰好 1 或 -1)并且没有线性;大(幅度)相关并不一定意味着关系实际上是线性的(也不意味着它不是线性的);相关性本身并不是确定线性回归模型适用性的有用方法。

在多元回归的情况下,检查双变量相关性甚至更成问题,因为边际双变量相关性可能与您在多元回归模型中得到的完全不同。(例如,参见关于辛普森悖论和遗漏变量偏差的维基百科文章。)

但是,如果您对回归是否在预测方面做有用的事情感兴趣,我们需要准确地确定“有用”的意图。在某些情况下,这可能归因于相关值。

另一方面,如果您要问“我们如何对 Pearson 相关性进行假设检验?” 您可能应该编辑问题以使其明确。在适当的假设下,您可以在包装中轻松获得“标准”测试 - 或者相当容易地手动执行。[但是,您不仅限于这些特定假设,还可以进行 Pearson 相关性的其他检验——包括非参数检验。]

有充分证据的效果和强烈的效果是有区别的。例如,有充分的证据表明吃培根会致癌,但风险很低;并且有微弱的证据表明吸食大麻叶会导致癌症,但风险可能很高。(造成差距的原因是培根食用者比吸食大麻的人受到更多的医疗监督。)

因此,对相关性是否得到充分证明的有用统计检验不是基于相关系数,而是基于样本量。

情况的另一个重要特征是相关性解释了多少变化:这是 R 平方统计量,即决定系数。

通常,“重要性”一词的含义是“ρ在统计上与零有显着差异”。然而,这并不是大多数用户的ρ感兴趣,因为原假设ρ正好为零几乎可以肯定是错误的。因此,对于足够大的样本量,即使是与零的最小偏差也会变得“显着”。

相关性是否通常更令人感兴趣。什么被认为是“强”相关性取决于该领域,但这里是从介绍性教科书中获取的经验法则(这里是同一规则的在线参考):

|ρ|0.3:weak correlation0.3<|ρ|0.7:moderate correlation|ρ|>0.7:strong correlation
因此,我建议,不要针对ρ=0,但要报告置信区间ρ. 您可以在此处找到公式,并且大多数统计软件包都提供了为您计算它的函数,例如cor.test在 R 中。然后您可以看到该区间与“弱”范围重叠的程度。

您可以使用以下测试来检查之间是否存在显着相关性XY. 假设您有观察结果(xi,yi),i=1,,n.

原假设和备择假设由下式给出:

H0:ρ=0vs.H1:ρ0
检验统计量由下式给出:
T=n2ρ^1ρ^2H0tn2
在哪里ρ^是相关系数的样本估计,即
ρ^=1ni=1n((xix¯)(yiy¯))1ni=1n(xix¯)21ni=1n(yiy¯)2

因此,如果 null 被拒绝|T|>tn2;1α2.