可视化一百万,PCA 版

机器算法验证 r 数据可视化 主成分分析 双标图
2022-01-25 00:08:55

是否有可能以比汇总表更深入的方式可视化主成分分析的输出?当观察数量很大时是否可以这样做,比如~1e4?是否有可能在 R [欢迎其他环境] 中做到这一点?

3个回答

双图是可视化PCA结果的有用工具。它允许您同时可视化主成分分数和方向。如果有 10,000 个观察值,您可能会遇到过度绘图的问题。阿尔法混合可以帮助那里。

这是来自 UCI ML 存储库的葡萄酒数据的 PC 双图

来自 UCI ML 存储库的葡萄酒数据的 PC 双图

这些点对应于每个观察的 PC1 和 PC2 分数。箭头表示变量与 PC1 和 PC2 的相关性。白色圆圈表示箭头的理论最大范围。对于数据中的 3 个葡萄酒品种,椭圆是 68% 的数据椭圆。

我已经在此处提供了生成此图的代码

Wachter 图可以帮助您可视化 PCA 的特征值。它本质上是特征值与 Marchenko-Pastur 分布的 QQ 图。我在这里有一个例子:显示单个主要特征值的 Wachter 图有一个主要特征值不在马尔琴科-巴斯图分布范围内。这种情节的有用性取决于您的应用程序。

你也可以使用 psych 包。

这包含一个 plot.factor 方法,它将以散点图矩阵的样式将不同的组件相互绘制。