处理大df中的分类变量

数据挖掘 Python 分类 熊猫 多标签分类
2022-02-25 07:28:39

我有一个包含近 4000 万行和约 20 列的 df(总大小为 2.2+GB)。我的 15 个特征是分类的。我认为在不使 df 变得更大的情况下解决这个问题的最合理方法是使用 LabelEncoder 拟合/转换每个特征,然后将每个特征转换为类别数据类型。

唯一的问题是没有一个分类特征是有序的。我应该用 StandardScaler 拟合/转换它们还是没有必要?

1个回答

不。如果如您所说,变量是分类的,那么执行缩放没有任何意义。普通的 LabelEncoder 已经做了你想要的。