我有一个包含 50 个样本的数据集。每个样本由 11 个(可能相关的)布尔特征组成。我想了解如何在 2D 图上可视化这些样本,并检查 50 个样本中是否存在集群/分组。
我尝试了以下两种方法:
(a) 在 50x11 矩阵上运行 PCA 并选择前两个主成分。将数据投影到 2D 图上并运行简单的 K-means 来识别集群。
(b) 构造一个 50x50(余弦)相似度矩阵。运行谱聚类以降低维数,然后再次运行 K-means。
进行直接 PCA 与使用相似矩阵的特征值之间的概念区别是什么?这个比那个好吗?
此外,是否有更好的方法可以在 2D 中可视化此类数据?由于我的样本量总是限制在 50 并且我的特征集总是在 10-15 范围内,我愿意即时尝试多种方法并选择最好的方法。
相关问题: 通过聚类或 PCA 对样本进行分组