什么时候应该使用 PCA?

数据挖掘 r 主成分分析 降维
2022-02-14 03:26:00

我有一个包含 60000 行和 32 列的数据集。我想使用 SVM(有更多的约束使它更复杂),我认为 32 列太大了。所以我决定使用 PCA。但是当我加载 PCA 时,前 20 个组件描述了 85% 的数据,其中 20 个变量我认为仍然太大,但比 32 个要好。
我想知道如果我使用 PCA 可以吗?当n>>m?如果不是什么是更好的选择?

1个回答

如果可以,请使用一些非线性降维技术。最强大的是自动编码器,但您也可以使用t-SNE或其他多种技术。

PCA 的问题在于它只能提取与变量线性相关的潜在因素。使用非线性技术,更少的变量可以让您捕获更多的原始方差。