Python中pearsonr()输出的统计意义

机器算法验证 相关性 Python 皮尔逊-r
2022-04-20 04:46:04

我通过使用计算了皮尔逊相关性

pearsonr(var1, var2)

我知道第一个数字是皮尔逊相关性,第二个数字是显着性。

我有几个问题:

  • 高于哪个值,我们可以认为显着相关?
  • 只有R方R**2吗?
  • 如何计算调整后的 R 平方?
1个回答
  1. 第二个数字是p值。如果真实相关性为 0,则可以将其解释为在样本中观察到极端相关性的概率(即,如果为正则为高,如果为负,则为低)。因此,低值对应于更强的相关性证据与 0 不同,您可以通过检查p值是否低于(不高于)阈值来执行测试。请注意,有几种方法可以测试相关系数是否不同于 0(请参阅Can p-values for Pearson's correlation test be computed just from correlation coefficient and sample size?特别是 Nick Cox 在评论中提供的参考)。

    该阈值应该是多少取决于您,原则上可以根据不犯错误的重要性以及您的实验有多少能力来确定。在许多科学学科(心理学、生物医学和神经科学,可能是经济学)中,错误水平通常设置为 5%(即p值低于 0.05),您可以将任何低于该阈值的东西称为“统计显着”。在物理学和工程学中,阈值有时要低得多(五或六个“西格玛”)。另请参阅使用 p < 0.001、p < 0.0001 或更低 p 值的研究示例?比较和对比、p 值、显着性水平和 I 型错误

  2. 是的,对于具有一个预测变量和一个截距的简单线性回归,r*r确实是一个估计R2. 当然,您的代码并没有明确地拟合模型或任何东西,但 Pearson 积矩相关性、这个简单的线性模型和不同的其他测试之间存在联系。如果模型包含多个预测变量,它会变得更加复杂(参见回归R2和相关性)。

  3. 调整后R2进行调整以考虑参数的数量(即使附加变量并不是真正有用,也可以预期具有更多参数的模型可以更好地预测样本中的数据)。维基百科中有一个公式和几个较早的问题:How to choose between the different AdjustedR2公式?,如果调整后的 R-squared 能更好地预测模型,为什么调整后的 R-squared 小于 R-squared?. 如果您阅读更多内容,您会注意到实际上有很多关于如何调整的讨论R2以及这些系数在实践中的用处。

    你显然可以得到一个调整R2直接在 Python/SciPy 中使用该ols.ols()函数,参见http://wiki.scipy.org/Cookbook/OLS