我有一个包含每个城市的选举结果和犯罪率的数据集。对于每个变量,我都有一个绝对值(即总票数、总犯罪率)和一个相对值(即百分比票数)。
我想计算一些变量的相关系数,但在这个过程中我有一个问题,我需要使用什么值,如果是相对值还是绝对值。
首先我计算z score了绝对值,然后我使用 excel 计算了相关性。我还在python中使用了pandas.DataFrame.corr()and pearsonrfrom scipy.stats.stats,以证实结果。
例如,如果我使用绝对值,我将在候选 1和候选 2之间得到正相关。
x = df['Abs Cand 1'].tolist()
y = df['Abs Cand 2'].tolist()
print (pearsonr(x,y))
(0.95209664861187004, 0.0)
但是,如果我使用相对的,我会得到负相关:
x = df['Rel Cand 1'].tolist()
y = df['Rel Cand 2'].tolist()
print (pearsonr(x,y))
(-0.99704737036262991, 0.0)
当我看到这两个结果时我很困惑,现在我需要一些方向来理解这些差异。
提前致谢!