在机器学习领域,我想知道应用特征选择技术的兴趣。
我的意思是,我经常阅读有关如何减少特征数量(降维,PCA),如何选择最佳特征(特征选择等)的文章或讲座。
我不确定这样做的主要目的:
- 特征减少技术是否总能提高学习模型的准确性?
- 或者它只是一个计算成本的目的?
我想了解什么时候需要减少特征数量,什么时候不需要,以提高可解释性或准确性。谢谢!
在机器学习领域,我想知道应用特征选择技术的兴趣。
我的意思是,我经常阅读有关如何减少特征数量(降维,PCA),如何选择最佳特征(特征选择等)的文章或讲座。
我不确定这样做的主要目的:
我想了解什么时候需要减少特征数量,什么时候不需要,以提高可解释性或准确性。谢谢!
特征选择 (FS) 方法专注于尽可能多地对数据进行专业化,以便为您的问题找到准确的模型。推动对 FS 需求的一些主要问题是:
特征选择不一定能提高模型的预测质量。减少或转换特征可能会导致信息丢失,从而导致模型精度降低。是一个开放而复杂的研究领域。然而,在许多情况下,它变得非常有用。这将取决于您描述目标变量的原始特征的好坏程度。如果您研究生物信息学,您会看到人们处理数千甚至数百万个特征,而只有数百个示例。在这里,特征选择变得越来越重要。
PS:正如我提到的大多数示例一样,我最常看到用于创建复合特征的术语“特征选择”,而特征提取术语用于实际从数据集中删除特定特征而不考虑关系与目标变量。
可以进行特征选择以防止过度拟合。你拥有的特征越多,你就越有可能过度拟合。是的,我想说其中一个目的可能是降低计算成本。