使用 UMAP 进行建模(而不是演示/探索)的降维是否有意义?

数据挖掘 特征选择 特征工程 降维
2022-02-26 01:10:16

在训练之前通过 PCA 降低维度是一种常见的做法,但 PCA 不能利用特征之间的非线性关系。

我读到了 UMAP(例如https://adanayak.medium.com/dimensionality-reduction-using-uniform-manifold-approximation-and-projection-umap-4aa4cef43fed),一种能够理解非线性的降维技术特征之间的关系。

但是,我只看到了它在数据表示和探索中的用途。在为下游模型训练创建输入时,使用 UMAP 作为特征工程/降维的一种形式是否有意义?

1个回答

是的,这是有道理的,这是 UMAP 相对于 t-SNE 的优势之一。虽然 t-SNE 无法对样本外数据进行操作,但 UMAP 会创建一个到低维空间的映射,该映射可以应用于样本外数据,就像 PCA 矩阵应用于样本外数据一样-样本数据。

(当然,我们可以通过 t-SNE 算法运行所有内容,然后进行数据拆分,但这主要是作弊。当我们得到构建模型时不存在的新观察时会发生什么,比如 Siri 应该是几年后能说话,能听懂未出生的人说话吗?)