数据挖掘 - 使用绝对值和相对值的 Pearson 相关方法 - 吾爱随笔录

我有一个包含每个城市的选举结果和犯罪率的数据集。对于每个变量，我都有一个绝对值（即总票数、总犯罪率）和一个相对值（即百分比票数）。

我想计算一些变量的相关系数，但在这个过程中我有一个问题，我需要使用什么值，如果是相对值还是绝对值。

首先我计算z score了绝对值，然后我使用 excel 计算了相关性。我还在python中使用了pandas.DataFrame.corr()and pearsonrfrom scipy.stats.stats，以证实结果。

例如，如果我使用绝对值，我将在候选 1和候选 2之间得到正相关。

x = df['Abs Cand 1'].tolist()
y = df['Abs Cand 2'].tolist()

print (pearsonr(x,y))
(0.95209664861187004, 0.0)

但是，如果我使用相对的，我会得到负相关：

x = df['Rel Cand 1'].tolist()
y = df['Rel Cand 2'].tolist()

print (pearsonr(x,y))
(-0.99704737036262991, 0.0)

当我看到这两个结果时我很困惑，现在我需要一些方向来理解这些差异。

提前致谢！