我正在做一个基本的相关性分析,但出于某种原因,pandas corr() 正在删除列,不知道为什么。
import pandas as pd
data = pd.read_csv("data.csv")
print(len(data.columns))
print(len(data.corr().columns))
输出:
100
64
我正在做一个基本的相关性分析,但出于某种原因,pandas corr() 正在删除列,不知道为什么。
import pandas as pd
data = pd.read_csv("data.csv")
print(len(data.columns))
print(len(data.corr().columns))
输出:
100
64
Pearson 相关性是 Pandas corr 方法使用的默认相关性。
由于其不连续的性质,在此过程中会忽略分类特征(非数字)。说如果categorical_var1增加1,categorical_var2也增加X(X 的值取决于 2 个变量之间的相关性)是没有意义的。
这就是为什么你只看到数值变量!您可以将其他统计测试应用于分类变量以更好地理解它们。
注意:有些列乍一看可能显示为数字,但由于输入错误可能存在字符串,或者只是在完成文件格式设置后,该列类型设置为“对象”。确保测试您所谓的数字列中的值并应用 astype 将它们设置回int或float