我通过使用计算了皮尔逊相关性
pearsonr(var1, var2)
我知道第一个数字是皮尔逊相关性,第二个数字是显着性。
我有几个问题:
- 高于哪个值,我们可以认为显着相关?
- 只有R方
R**2吗? - 如何计算调整后的 R 平方?
我通过使用计算了皮尔逊相关性
pearsonr(var1, var2)
我知道第一个数字是皮尔逊相关性,第二个数字是显着性。
我有几个问题:
R**2吗?第二个数字是p值。如果真实相关性为 0,则可以将其解释为在样本中观察到极端相关性的概率(即,如果为正则为高,如果为负,则为低)。因此,低值对应于更强的相关性证据与 0 不同,您可以通过检查p值是否低于(不高于)阈值来执行测试。请注意,有几种方法可以测试相关系数是否不同于 0(请参阅Can p-values for Pearson's correlation test be computed just from correlation coefficient and sample size?特别是 Nick Cox 在评论中提供的参考)。
该阈值应该是多少取决于您,原则上可以根据不犯错误的重要性以及您的实验有多少能力来确定。在许多科学学科(心理学、生物医学和神经科学,可能是经济学)中,错误水平通常设置为 5%(即p值低于 0.05),您可以将任何低于该阈值的东西称为“统计显着”。在物理学和工程学中,阈值有时要低得多(五或六个“西格玛”)。另请参阅使用 p < 0.001、p < 0.0001 或更低 p 值的研究示例?比较和对比、p 值、显着性水平和 I 型错误
是的,对于具有一个预测变量和一个截距的简单线性回归,确实是一个估计. 当然,您的代码并没有明确地拟合模型或任何东西,但 Pearson 积矩相关性、这个简单的线性模型和不同的其他测试之间存在联系。如果模型包含多个预测变量,它会变得更加复杂(参见回归和相关性)。
调整后进行调整以考虑参数的数量(即使附加变量并不是真正有用,也可以预期具有更多参数的模型可以更好地预测样本中的数据)。维基百科中有一个公式和几个较早的问题:How to choose between the different Adjusted公式?,如果调整后的 R-squared 能更好地预测模型,为什么调整后的 R-squared 小于 R-squared?. 如果您阅读更多内容,您会注意到实际上有很多关于如何调整的讨论以及这些系数在实践中的用处。
你显然可以得到一个调整直接在 Python/SciPy 中使用该ols.ols()函数,参见http://wiki.scipy.org/Cookbook/OLS