数据挖掘 - 什么是降维？特征选择和提取有什么区别？ - 吾爱随笔录

什么是降维？特征选择和提取有什么区别？

数据挖掘特征选择特征提取降维

2021-10-09 19:54:17

来自维基百科：

降维或降维是减少考虑的随机变量数量的过程，可分为特征选择和特征提取。

特征选择和特征提取有什么区别？

自然语言处理任务中的降维示例是什么？

4个回答

简单的说：

特征选择：您选择原始特征集的子集；尽管
特征提取：您从原始特征集构建一组新特征。

特征提取的例子：图像中的轮廓提取、文本中的图提取、语音文本记录中的音素提取等。

特征提取涉及特征的变换，这通常是不可逆的，因为在降维过程中会丢失一些信息。

降维通常是选择一个基础或数学表示，您可以在其中描述数据中的大部分但不是全部的方差，从而保留相关信息，同时减少表示它所需的信息量。有多种技术可以做到这一点，包括但不限于PCA、ICA和Matrix Feature Factorization。这些将采用现有数据并将其减少为最具辨别力的组件。这些都允许您用更少、更具辨别力的特征来表示数据集中的大部分信息。

特征选择是手动选择具有高度区分性的特征。与分析相比，这与特征工程有更多的关系，并且需要数据科学家做更多的工作。它需要了解数据集的哪些方面在您所做的任何预测中很重要，哪些不重要。特征提取通常涉及生成新特征，这些新特征是现有特征的组合。这两种技术都属于特征工程的范畴。通常，如果您想获得最佳结果，特征工程很重要，因为它涉及创建数据集中可能不存在的信息，并提高信噪比。

正如@damienfrancois 回答特征选择是关于选择特征子集的。因此，在 NLP 中，它将选择一组特定的单词（NLP 中的典型特征是每个单词代表一个特征，其值等于单词的频率或基于 TF/IDF 或类似的其他权重）。

降维是引入表示原始特征的新特征空间。新空间的维度低于原始空间。在文本的情况下，一个例子是散列技巧，其中一段文本被缩减为几个位（比如 16 或 32）或字节的向量。令人惊奇的是空间的几何形状被保留（给定足够的位），因此文档之间的相对距离保持与原始空间中的相同，因此您可以部署标准机器学习技术而无需处理未绑定（以及大量of) 在文本中找到的尺寸。

特征选择是关于基于一些统计分数选择一些特征，但特征提取是使用技术从数据中提取一些第二层信息，例如使用傅里叶变换的信号的有趣频率。

降维就是将数据转换为低维空间，在该空间中数据保留其欧几里德结构，但不受维数灾难的影响。例如假设您提取一些单词特征 $[x_1,...,x_n]$ 来自一个数据集，其中每个文档都可以建模为 n 维空间中的一个点，并且 n 太大（一个玩具示例）。在这种情况下，许多算法不能根据高维空间的距离失真来工作。现在，您需要通过选择信息量最大的特征或使用降维方法（例如 PCA、LLE 等）将它们转换为低维流形来降低维度。

其它你可能感兴趣的问题

上一篇支持向量机在其利基市场中是否仍然被认为是“最先进的”？下一篇交叉熵损失解释