我有一个包含 19 个变量的 1000 多个样本数据集。我的目标是根据其他 18 个变量(二进制和连续)预测二进制变量。我非常有信心 6 个预测变量与二元响应相关联,但是,我想进一步分析数据集并寻找我可能遗漏的其他关联或结构。为了做到这一点,我决定使用 PCA 和集群。
在标准化数据上运行 PCA 时,需要保留 11 个分量才能保留 85% 的方差。 通过绘制pairplots我得到这个:
我不确定接下来会发生什么......我在 pca 中没有看到明显的模式,我想知道这意味着什么,以及它是否可能是由于某些变量是二进制的事实引起的。通过运行具有 6 个集群的聚类算法,我得到以下结果,尽管有些斑点似乎很突出(黄色的),但这并不完全是一种改进。
正如您可能知道的那样,我不是 PCA 方面的专家,但看过一些教程以及它如何强大地一瞥高维空间中的结构。使用著名的 MNIST 数字(或 IRIS)数据集,它工作得很好。我的问题是:我现在应该怎么做才能使 PCA 更有意义?聚类似乎没有找到任何有用的东西,我怎么能知道 PCA 中没有模式,或者我接下来应该尝试什么来找到 PCA 数据中的模式?