数据挖掘 - 只删除 OneHot 生成的部分功能有什么问题吗？ - 吾爱随笔录

一个热编码器将更多列添加到数据中，编码特征中的每个类别都有一个列。在下面的示例中，该列City被转换为 4 个其他列。假设在数据集上运行决策树，下面是其中的一部分，City_Chicago并且City_New_York似乎在最重要的特征中，而City_Detroit在最不重要的特征City_SanFrancisco中。如果我从我的数据集中删除City_Detroit和删除City_SanFrancisco，但保留City_Chicago和City_New_York/或是否需要保留所有城市特征，因为它们是一个初始特征的一部分，会有什么问题吗？

|---------------------|------------------|-------------|---------------|---------------|
|      City           | City_SanFrancisco| City_Detroit| City_New_York | City_Chicago  |
|---------------------|------------------|-------------|---------------|---------------|
|     San Francisco   |         1        |      0      |       0       |     0         |
|---------------------|------------------|-------------|---------------|---------------|
|     Detroit         |         0        |      1      |       0       |     0         |
|---------------------|------------------|-------------|---------------|---------------|
|     New York        |         0        |      0      |       1       |     0         |
|---------------------|------------------|-------------|---------------|---------------|
|     Chicago         |         0        |      0      |       0       |     1         |
|---------------------|------------------|-------------|---------------|---------------|