假设我有一个大小为 (10000, 45) 的数据集。数据集中的特征之一是 activity_type ,其中值从 1 到 15 不等,如下所示:
df = pd.read_csv('actTrain.csv')
df['activity_type'].head()
上述代码的输出如下:
0 1
1 1
2 2
3 1
4 3
Name: activity_type, dtype: int64
无论如何,使用 sklearn 中的 OneHotEncoder 对上述代码中的 activity_type 进行编码会改进模型吗?是否有必要对该功能进行编码?如果是,我应该选择哪一个:LabelEncoder 或 OneHotEnocder?