由于您的数据可能非常嘈杂,您可以尝试使用它的稳健变体来提高 PCA 性能,有关详细信息,请参阅Wikipedia。
但总的来说,我确实同意你的担忧。因为在遗传数据等复杂数据集中,不同的聚类可能会表现出不同的相关性,而这些相关性无法用全局PCA 充分表示。
使用 PCA 进行降维(例如到 2D 或 3D 进行可视化)的质量在很大程度上取决于捕获的方差量。但是你不能通过直系亲属的股份。如果我们有 1000 个维度,前两个解释这可能(我没有测试过)非常重要。在 10 维中,它完全没有意义,对于统一的 iid 数据,第一个单个特征向量必然已经解释得比这更多。更好的控制是值。10%
explained varianceexpected explained variance
就在几天前,我在这里发布了一个关于特征值的预期分布的问题。如果我们找到一些分布,我们可以测试结果是否显着:
iid(均匀或正态)数据的特征值估计分布
到 (差异为 20 倍!)并不罕见,至少在样本很小的情况下是这样。因此,在指示投影是否真的捕捉到某些东西时,特征值似乎相当不可靠。0.1190.006
特征选择不包括旋转。什么时候 PCA 变得有趣了:它实际上是对数据进行了很大的旋转,还是只是选择了一些特征(即一个轴和一个特征向量之间的低角度)?尝试在可视化中绘制原始属性的轴,以显示与原始数据的关系以及 PCA 使用的属性。