(特征选择)在哪些情况下手动删除特征是合法的?

数据挖掘 scikit-学习 特征选择
2022-02-16 20:04:40
  • 我正在处理一个类别仅占 90% 左右的特征,其他 30 多个类别的实例稀疏。

在此处输入图像描述

  • 在构建估算器之前删除此功能是否合理?我已经对包含和排除此功能的情况进行了试验,后一种情况显示了稍微(非常轻微......)更好的性能。

  • 我想知道是否有任何机器学习原则,例如我们应该避免“人类学习”而让“机器学习”去做。处理此类功能的最佳方法是什么?我目前正在使用 Scikit-learn。

我是数据科学的初学者,所以任何意见对我来说都很有价值。:)

1个回答

在构建估算器之前删除此功能是否合理?我已经对包含和排除此功能的情况进行了试验,后一种情况显示了稍微(非常轻微......)更好的性能。

最终,这是获得答案的最佳方式。信任交叉验证如果你做得很稳健,并且说放弃该功能可以提高性能,那么就放弃该功能。

我想知道是否有任何机器学习原则,例如我们应该避免“人类学习”而让“机器学习”去做。处理此类功能的最佳方法是什么?我目前正在使用 Scikit-learn。

不,人类对特征的选择也起作用。一些算法可以抵抗垃圾特征并且可以有效地忽略它们,但它们总是存在过度拟合的可能性。处理它们的最好方法是你所做的;尝试有和没有的模型,看看哪个表现更好。