这个问题是关于 scikit-learn 的实现方面的DecisionTreeClassifier()。
如何从feature_importances_scikit-learn 返回的功能名称中按降序排列DecisionTreeClassifier()?
问题是分类器的输入特征不是原始特征——它们是来自 pandas DataFrame get_dummies 的数字编码特征。
例如,我从 UCI 存储库中获取蘑菇数据集。数据集中的特征包括 - cap_shape、cap_surface、cap_color、odor等。
pandas dataframe getdummies 根据原始特征的值将这些编码为多个特征。说cap_shape有值 b,c,f,k...在编码新列之后是cap_shape_b, cap_shape_c, cap_shape_f. 其他功能也会发生类似的转变。
训练后,分类器告诉我前两个特征是:
cap_shape_b, cap_shape_c, cap_shape_f, odor_a,odor_c, odor_f,odor_l。根据分类器抛出的这个结果,我希望我的函数返回原始特征,即cap_shape和odor。