如何绘制文本挖掘的结果(例如分类或聚类)?

机器算法验证 数据可视化 聚类 分类 文本挖掘 Python
2022-03-24 12:47:03

在文本分类和聚类中,特征的数量通常很大,例如我目前得到的特征是大约 5,000 个,与许多其他文本挖掘任务相比已经非常少了。鉴于我对可视化完全陌生,我不知道应该如何绘制文本分类和聚类的结果。

例如,在一项聚类任务中,我在这些文本中有三个类别、数百个文档和数千个特征。在我应用一个集群后,例如来自 scikit-learn 的 KMeans 集群,我不知道如何将这些结果绘制到 2D 图形上。分类也是如此,比如说,我将文本分为三类,但我不知道如何绘制它们。

我尝试从一些示例中学习,但我发现的大多数示例都是基于具有很少特征的纯数据而不是文本。

问题:您能否向我推荐任何关于绘制文本聚类/分类结果或解释这种可视化的数学部分的教程或论文。或任何帮助将不胜感激。

2个回答

如果您正在进行分类,这应该是相当简单的。只需选择一些性能的聚合度量(例如准确度),并为 k-means 的不同随机初始化绘制该度量的分布。这为您提供了有关算法平均执行情况的一些信息。

如果您正在进行聚类(即无监督聚类),那么您可以使用矢量压缩技术制作漂亮的聚类图片。一种简单的技术可能是在空间中选择一个点,并绘制数据集中的每个点及其与该点的欧几里德距离及其类别。您还可以使用更高级的技术,例如PCA

如果您有兴趣找出哪些特征是好的预测器,我建议在其上运行诸如最大熵分类器之类的东西,或者许多特征选择算法之一。这些技术将为您提供每个特征的权重,表明其在预测分组中的重要性。

我使用两种不同的技术将n维空间中的所有数据点向下投影到二维:PCA 或 MDS(多维缩放)。如果我有一个对应于每个数据点的n维向量,我会使用 PCA。如果生成距离矩阵比生成单个项目的精确n维位置更方便,我会使用 MDS 。将点投影到 2 空间后,使用颜色和/或形状来说明集群。如果您有一个稀疏连接的距离矩阵(,大多数条目没有距离并且未连接),那么您可以将数据呈现为一个稀疏连接的无向图。您可以使用数百种适当的图形布局算法。

这种方法对于识别集群的结构并不是非常有用,但它至少可以为您提供所有点的漂亮图片。