特征减少便利

数据挖掘 机器学习 特征选择 特征工程
2022-02-16 17:35:51

在机器学习领域,我想知道应用特征选择技术的兴趣。

我的意思是,我经常阅读有关如何减少特征数量(降维,PCA),如何选择最佳特征(特征选择等)的文章或讲座。

我不确定这样做的主要目的:

  • 特征减少技术是否总能提高学习模型的准确性?
  • 或者它只是一个计算成本的目的?

我想了解什么时候需要减少特征数量,什么时候不需要,以提高可解释性或准确性。谢谢!

2个回答

特征选择 (FS) 方法专注于尽可能多地对数据进行专业化,以便为您的问题找到准确的模型。推动对 FS 需求的一些主要问题是:

  • 维数诅咒:当数据的维数(特征)数量多且示例数不够大时,大多数算法都难以掌握特定预测任务的数据相关特征。检查here一些更详细的解释
  • 变量之间的相关性:通常,高度相关的变量对的存在会导致 ML 算法非常关注“过度代表”的特定效果。出于这个原因,许多 FS 方法解决了这种相关性的降低问题。减少相关变量的数量通常会增加模型的预测能力。
  • 潜在特征:尽管特定变量可能对您的问题具有很强的表达能力,但在找到“潜在特征”时可以获得很多功能,例如原始变量的线性和非线性组合。这里有数百种方法,从 PCA 到神经网络。独立于方法(和统计假设)的想法是创建新的特征,将更大的特征集的信息浓缩成更小的特征。希望新的特征集更具代表性,并且更小可以更容易学习。

特征选择不一定能提高模型的预测质量。减少或转换特征可能会导致信息丢失,从而导致模型精度降低。是一个开放而复杂的研究领域。然而,在许多情况下,它变得非常有用。这将取决于您描述目标变量的原始特征的好坏程度。如果您研究生物信息学,您会看到人们处理数千甚至数百万个特征,而只有数百个示例。在这里,特征选择变得越来越重要。

PS:正如我提到的大多数示例一样,我最常看到用于创建复合特征的术语“特征选择”,而特征提取术语用于实际从数据集中删除特定特征而不考虑关系与目标变量。

可以进行特征选择以防止过度拟合。你拥有的特征越多,你就越有可能过度拟合。是的,我想说其中一个目的可能是降低计算成本。