做 PCA 时要减少多少维?

数据挖掘 主成分分析
2021-10-01 03:09:39

如何为 PCA 选择 K?K 是向下投影的维度数。唯一的要求是不要丢失太多信息。我知道这取决于数据,但我正在寻找更多关于选择 K 时要考虑哪些特征的简单概述。

2个回答

执行 PCA 算法后,您将获得主成分,按它们所拥有的信息量排序。如果您保留整套,则不会丢失任何信息。把它们一个一个去掉,投影回原来的空间,就可以计算出信息损失了。您可以将此信息损失与移除的主成分数量进行对比,看看它是否在有意义的地方形成了“弯头”。不过,这在很大程度上取决于您的用例。

我通常检查 K 值所持有的信息的百分比。假设在 8 个字段中,其中 2 个包含 90% 的信息。那么包含其他 6 或 5 个字段就没有意义了。如果你知道 mnist 数据,在 768 个输入中,我只使用了 250 个,这将我的准确率从 83% 提高到 96%。事实是更多的维度带来更多的问题。所以切断它们。我通常只选择只持有 90% 信息的 K,它对我有用。