我的预测模型中有分类特征和连续特征,并且想要选择(和排名)最重要的特征。
我已经使用一种热编码将所有分类变量转换为虚拟变量(以便在我的逻辑回归模型中更好地解释)。
一方面,我使用 LogisticRegression (sklearn) 并使用它们的系数对最重要的特征进行排名。通过这种方式,我在最重要的特征中看到了分类变量和连续变量。
另一方面,当我想使用决策树模型(SelectFromModel)对特征进行排名时,它们总是首先给连续特征更高的分数(feature_importances_),然后给分类(虚拟)变量。与逻辑回归相比完全不同的行为。
虽然决策树模型的性能比逻辑回归的性能高得多(大约 15%),但我想知道哪种特征排序(决策树或逻辑回归)更正确?为什么决策树模型更优先考虑连续特征?