数据挖掘 - ML 模型：如何处理具有 1000 多个唯一值的分类特征 - 吾爱随笔录

数据挖掘机器学习 Python 熊猫无监督学习监督学习

2022-02-15 14:28:13

我正在尝试在包含很多分类列的数据集上构建 ML 分类模型。但是，其中很少有超过 1000 个唯一值。我担心，如果我运行 one-hot 编码或 pandas 在它们上得到假人，它只会导致太多的功能无法使用。

因此，我试图找到占基础数据 90% 的前 N 个唯一值，并将其余的值分组为“其他”或“杂项”。但这使得“其他”或“杂项”价值成为最突出的价值。我担心这可能会扭曲模型/结果。关于我应该如何处理这种情况的任何指示？

1个回答

如有必要，还有其他编码分类特征的方法：

一个方便的python包是类别编码器：链接

我建议首先调查您的模型是否需要对分类变量进行编码 -lightgbm并且catboost是支持分类变量的 ML 算法的示例。

其它你可能感兴趣的问题