是否可以将 PCA 独立应用于不同的子集?

数据挖掘 主成分分析
2022-02-27 12:07:00

我需要在相当大的数据集上应用 PCA,但我的机器无法处理工作量。所以我正在考虑将我的原始集合随机拆分为 4 个子集,在每个子集上独立应用 PCA,最后加入 4 个子集以使原始集与 PCA 一起使用。

根据我的理解,PCA 会寻找相关变量,以便将它们组合成一个,以某种方式表示原始变量的值。所以我相信这个操作发生在行级别上。但是,我猜算法需要将所有集合作为一个整体来分析以确定特征之间的相关性,因为特征之间的相关性可能逐行不同,有些行甚至可能具有 NaN 值。

所以我想知道这种使用子集的方法是否正确,或者我是否可能最终得到一个子集,它在 PAC 组合特征ab另一个子集之后组合了bc

1个回答

您可以使用小批量 PCAsklearn中提供了一种公式

或者,您可以在精心挑选的数据子集上运行 PCA。这非常耗时,我不确定这是否可能,并且它的可行性是特定于任务的。