我在熊猫数据框中有一个数据,例如:
df =
X1 X2 X3 Y
0 1 2 10 5.077
1 2 2 9 32.330
2 3 3 5 65.140
3 4 4 4 47.270
4 5 2 9 80.570
我想做多元回归分析。这里 Y 是因变量,X1、X2 和 X3 是自变量。每个自变量与因变量之间的相关性为:
df.corr():
X1 X2 X3 Y
X1 1.000000 0.353553 -0.409644 0.896626
X2 0.353553 1.000000 -0.951747 0.204882
X3 -0.409644 -0.951747 1.000000 -0.389641
Y 0.896626 0.204882 -0.389641 1.000000
正如我们在这里看到的,Y 与 X1 的相关性最高,所以我选择 X1 作为第一个自变量。在这个过程之后,我试图选择与 X 具有最高偏相关性的第二个自变量。所以我的问题是在这种情况下如何找到偏相关性?
您的帮助将不胜感激。