只删除 OneHot 生成的部分功能有什么问题吗?

数据挖掘 特征选择 特征工程 特征提取 一热编码
2022-03-11 09:53:42

一个热编码器将更多列添加到数据中,编码特征中的每个类别都有一个列。在下面的示例中,该列City被转换为 4 个其他列。假设在数据集上运行决策树,下面是其中的一部分,City_Chicago并且City_New_York似乎在最重要的特征中,而City_Detroit在最不重要的特征City_SanFrancisco中。如果我从我的数据集中删除City_Detroit和删除City_SanFrancisco,但保留City_ChicagoCity_New_York/或是否需要保留所有城市特征,因为它们是一个初始特征的一部分,会有什么问题吗?

|---------------------|------------------|-------------|---------------|---------------|
|      City           | City_SanFrancisco| City_Detroit| City_New_York | City_Chicago  |
|---------------------|------------------|-------------|---------------|---------------|
|     San Francisco   |         1        |      0      |       0       |     0         |
|---------------------|------------------|-------------|---------------|---------------|
|     Detroit         |         0        |      1      |       0       |     0         |
|---------------------|------------------|-------------|---------------|---------------|
|     New York        |         0        |      0      |       1       |     0         |
|---------------------|------------------|-------------|---------------|---------------|
|     Chicago         |         0        |      0      |       0       |     1         |
|---------------------|------------------|-------------|---------------|---------------|
1个回答

我想你可以随心所欲地保留,它会没事的。有时甚至值得删除非常稀有的类以获得更稳定的功能。

此外,对于线性回归,您不应包含所有这些,因为您可能会遇到共线性问题。

总而言之,不保留它们没有问题。