我有一个大型文本数据集聚类。每个集群由属于它的矢量化文本的质心、文本数量、创建日期和其他参数表示。我无法在 n 维空间中绘制集群。我有哪些选择?
如何以很好的方式绘制集群?
数据挖掘
聚类
文本挖掘
绘图
matplotlib
2021-09-30 14:36:30
3个回答
几个选项:
- 局部线性嵌入 (LLE):该方法构造一组局部几何块,在每个块上通过其 K 个最近邻的加权和来重建数据点,并将这些块映射到较低维空间。在这里找到代码,我强烈建议同时使用 LLE 和修改后的 LLE,并使用更好的(视觉上)。
- t-SNE:将高维点的相似性映射到通过它们在 t 分布中的距离提取的低维流形。注意正确调整参数。
- Spectral Embedding:实际上是Spectral Clustering(或者更准确地说,Spectral Clustering 确实是对 Spectral Embedded 数据版本的简单聚类)。它根据相应特征值的大小将数据投影到其拉普拉斯算子的特征向量上。
还有更多...
您可以使用降维算法(如主成分分析)将数据的维数减少到 2 或 3,然后使用降维变量执行散点图,根据它们所属的集群对它们进行着色。在这篇博文中,也做了类似的事情。
其它你可能感兴趣的问题