为什么 pandas corr() 删除列?

数据挖掘 熊猫 相关性
2021-09-27 09:59:34

我正在做一个基本的相关性分析,但出于某种原因,pandas corr() 正在删除列,不知道为什么。

import pandas as pd    
data = pd.read_csv("data.csv")
print(len(data.columns))
print(len(data.corr().columns))

输出:

100
64
1个回答

Pearson 相关性是 Pandas corr 方法使用的默认相关性。

由于其不连续的性质,在此过程中会忽略分类特征(非数字)。说如果categorical_var1增加1categorical_var2也增加X(X 的值取决于 2 个变量之间的相关性)是没有意义的。

这就是为什么你只看到数值变量!您可以将其他统计测试应用于分类变量以更好地理解它们。

注意:有些列乍一看可能显示为数字,但由于输入错误可能存在字符串,或者只是在完成文件格式设置后,该列类型设置为“对象”。确保测试您所谓的数字列中的值并应用 astype 将它们设置回intfloat