什么是降维?特征选择和提取有什么区别?

数据挖掘 特征选择 特征提取 降维
2021-10-09 19:54:17

来自维基百科:

降维或降维是减少考虑的随机变量数量的过程,可分为特征选择和特征提取。

特征选择和特征提取有什么区别?

自然语言处理任务中的降维示例是什么?

4个回答

简单的说:

  • 特征选择:您选择原始特征集的子集;尽管
  • 特征提取:您从原始特征集构建一组新特征。

特征提取的例子:图像中的轮廓提取、文本中的图提取、语音文本记录中的音素提取等。

特征提取涉及特征的变换,这通常是不可逆的,因为在降维过程中会丢失一些信息。

降维通常是选择一个基础或数学表示,您可以在其中描述数据中的大部分但不是全部的方差,从而保留相关信息,同时减少表示它所需的信息量。有多种技术可以做到这一点,包括但不限于PCAICAMatrix Feature Factorization这些将采用现有数据并将其减少为最具辨别力的组件。这些都允许您用更少、更具辨别力的特征来表示数据集中的大部分信息。

特征选择是手动选择具有高度区分性的特征。与分析相比,这与特征工程有更多的关系,并且需要数据科学家做更多的工作。它需要了解数据集的哪些方面在您所做的任何预测中很重要,哪些不重要。特征提取通常涉及生成新特征,这些新特征是现有特征的组合。这两种技术都属于特征工程的范畴。通常,如果您想获得最佳结果,特征工程很重要,因为它涉及创建数据集中可能不存在的信息,并提高信噪比。

正如@damienfrancois 回答特征选择是关于选择特征子集的。因此,在 NLP 中,它将选择一组特定的单词(NLP 中的典型特征是每个单词代表一个特征,其值等于单词的频率或基于 TF/IDF 或类似的其他权重)。

降维是引入表示原始特征的新特征空间。新空间的维度低于原始空间。在文本的情况下,一个例子是散列技巧,其中一段文本被缩减为几个位(比如 16 或 32)或字节的向量。令人惊奇的是空间的几何形状被保留(给定足够的位),因此文档之间的相对距离保持与原始空间中的相同,因此您可以部署标准机器学习技术而无需处理未绑定(以及大量of) 在文本中找到的尺寸。

特征选择是关于基于一些统计分数选择一些特征,但特征提取是使用技术从数据中提取一些第二层信息,例如使用傅里叶变换的信号的有趣频率。

降维就是将数据转换为低维空间,在该空间中数据保留其欧几里德结构,但不受维数灾难的影响。例如假设您提取一些单词特征[x1,...,xn]来自一个数据集,其中每个文档都可以建模为 n 维空间中的一个点,并且 n 太大(一个玩具示例)。在这种情况下,许多算法不能根据高维空间的距离失真来工作。现在,您需要通过选择信息量最大的特征或使用降维方法(例如 PCA、LLE 等)将它们转换为低维流形来降低维度。