简短的问题:
如标题中所述,我对在PCA-ed向量上应用 KMeans 和在KMean-ed向量上应用 PCA 之间的区别感兴趣。
长问题:
假设我们有一个词嵌入数据集。数据集中的每个单词都嵌入在 R300 中。
我们想要对数据集进行探索性分析,为此我们决定应用 KMeans,以便将单词分组为 10 个集群(任意选择的集群数量)。
完成该过程后,我们希望在 R3 中可视化结果。我们可以通过两种策略来解决这个问题;
策略 1 - 对 R300 个向量和 PCA 执行 KMeans 直到 R3:
- 将 KMeans 应用于 R300 嵌入。
- 对 R300 嵌入执行 PCA 并获得 R3 向量。
- 根据通过 KMeans 获得的聚类绘制 R3 向量
结果: http: //kmeanspca.000webhostapp.com/KMeans_PCA_R3.html
策略 2 - 在 R300 上执行 PCA 直到 R3,然后是 KMeans:
- 对 R300 嵌入执行 PCA 并获得 R3 向量。
- 将 KMeans 应用于 R3 嵌入。
- 根据通过 KMeans 获得的聚类绘制 R3 向量
结果: http: //kmeanspca.000webhostapp.com/PCA_KMeans_R3.html
得到的结果有什么不同吗?有什么解释吗?
如果这两种策略实际上是相同的。这是为什么?