我是数据科学的新手,在处理我的项目时遇到了一些问题。在使用多种方法进行聚类后,我正在尝试将多维数据可视化为 2D。(kmeans、DBSCAN、OPTICS、凝聚、光谱...)
我有多维数据。(11 列 - 属性,150K 行 - 数据数)。例如,它是一种类似稀疏的数据,这意味着一个数据具有像 (0, 0, 6.5, 0, 0, 7.5, 0, 0, 4.5, 0, 0) 这样的数值
因此,每个数据大约有 2~5 个非零属性值......
下面与我的项目并不完全相同,但它是相似的。
https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html
但是,由于我是新手,我对 PCA 和聚类的顺序感到好奇。我认为有两种情况。
[1。在 PCA 之前进行聚类]
这意味着,我使用 PCA 只是为了可视化。但我有一个问题。在这种情况下,如果我用原始数据处理聚类,那么所有聚类算法(上面提到的)都适合我的数据类型。
[2. 在 PCA 之后进行聚类]
在这种情况下,我还有其他问题。我的数据对组件的重要性如下所示。
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10
Standard deviation 1.4173 1.1836 1.1141 1.0108 0.99109 0.95231 0.89091 0.8456 0.71542 0.64610
Proportion of Variance 0.2009 0.1401 0.1241 0.1022 0.09823 0.09069 0.07937 0.0715 0.05118 0.04174
Cumulative Proportion 0.2009 0.3410 0.4651 0.5673 0.66551 0.75620 0.83558 0.9071 0.95826 1.00000
据我了解将多元数据可视化为 2D,我必须选择 2 台 PC。(例如> PC1,PC2)。但是,我的数据的 PV 略低于我的预期。
那么,我选择(PC1,PC2)来坐标进行聚类并处理聚类可以吗?另外,我可以选择其他PC(例如PC5,PC8)来进行集群坐标吗?