我正在学习特征选择。我明白为什么它对于模型构建很重要和有用。但让我们专注于监督学习(分类)任务。为什么特征选择对于分类任务很重要?
我看到很多关于特征选择及其用于监督学习的文献,但这让我感到困惑。特征选择是关于确定要丢弃哪些特征。直觉上,丢弃一些特征似乎是弄巧成拙:它是在丢弃信息。似乎抛出信息不应该有帮助。
即使删除一些特征确实有帮助,如果我们丢弃一些特征,然后将其余的输入到监督学习算法中,为什么我们需要自己做,而不是让监督学习算法处理呢?如果某些特征没有帮助,任何体面的监督学习算法不应该隐含地发现并学习不使用该特征的模型吗?
如此直观地,我本以为特征选择将是一项毫无意义的练习,它永远不会有帮助,有时可能会造成伤害。但它被如此广泛地使用和写的事实让我怀疑我的直觉是错误的。任何人都可以提供任何直觉,为什么在进行监督学习时特征选择是有用和重要的?为什么它可以提高机器学习的性能?这是否取决于我使用的分类器?