负相关但回归分析给出正相关系数

机器算法验证 回归 回归系数
2022-04-02 03:22:44

我一直在尝试寻找这样的问题,但我只是看到了正相关系数。我是新手,如果我不是很熟悉这些条款,请原谅我。

我正在对国民议会中的女性比例和死亡率进行分析。我期待一个负相关系数,因为这种关系是负的,但是在我的 Excel 回归数据分析中它是正的。我做错什么了吗?

在此处输入图像描述

如您所见,R^2 = 0.7208 但趋势线正在下降,所以我很困惑。希望有人能帮我解释一下,谢谢!

3个回答

相关系数为的平方,它当然总是正的,不管的符号如何。取平方根得出,由于关系为负,您可以得出结论rR2rrr=±0.8489r=0.8489

对于其他上下文,被称为决定系数(通常也称为 Pearson 的 R 平方)https://en.wikipedia.org/wiki/Coefficient_of_determinationR2

R2是拟合优度的常用度量 - 它告诉您模型对测试数据的预测程度。此解释中的 R 是预测的 y 值(根据最佳拟合线)与测试 y 值之间的相关性。

在单自变量情况下,这与自变量和因变量之间的相关性相同,但在多元回归中则不然。

其他答案是正确的,但我只是想添加更多细节,以防您对这些数字的含义感兴趣。

假设您要在图表上画一条水平线,它代表 y 的平均值,即数据中死亡率的平均值。对于您的示例,9.02 大约是平均死亡率。如果您没有解释变量(议会中女性的比例),死亡率值的平均值(水平线)实际上是您预测一个国家死亡率的最佳猜测。毕竟,如果除了死亡率值之外没有任何其他数据,你还能做什么?

回归的目的是采用一个或多个解释变量(x 变量)并找到一个比简单的死亡率平均值更好的国家死亡率预测指标。换句话说,对于你的例子,你所说的是,如果你知道议会中女性的国家比例,你可以比简单地说“9.02”更好地猜测这些国家的死亡率。您改为给出在虚线上找到的值。虚线给出的值比简单地使用水平线(平均值)要好得多!

因此,R^2 代表一个百分比,可以这样认为:

我们可以看到所有国家的死亡率值存在差异。我们可以通过使用虚线而不是水平线来解释死亡率值的多少变化?在这种情况下,我们可以通过了解议会中女性的比例来解释大约 72% 的死亡率值变化。这很好,但不如 R^2 值 1 好。如果它是 1,那么我们可以通过了解议会中女性的比例准确地知道每个国家的死亡率值应该是多少,因为变化量解释将是100%!也就是说,如果所有的点都落在虚线上,那么从点到线不会有任何变化。

进一步分析和结论

假设除了议会中女性的比例之外,还有一个变量代表该国贫困人口的比例。有人会怀疑,将这两个变量一起使用会比单独使用任何一个变量更好地预测一个国家的死亡率!这就是回归希望实现的目标。您考虑所有与感兴趣的结果变量正相关或负相关的事物,并提出一个将这些解释变量与结果相关联的方程。随着你添加越来越多的解释变量,你会发现你解释的结果的变化越来越多,也就是说你的 R^2 会越来越接近 1。