机器算法验证 - 如何绘制文本挖掘的结果（例如分类或聚类）？ - 吾爱随笔录

如何绘制文本挖掘的结果（例如分类或聚类）？

机器算法验证数据可视化聚类分类文本挖掘 Python

2022-03-24 12:47:03

在文本分类和聚类中，特征的数量通常很大，例如我目前得到的特征是大约 5,000 个，与许多其他文本挖掘任务相比已经非常少了。鉴于我对可视化完全陌生，我不知道应该如何绘制文本分类和聚类的结果。

例如，在一项聚类任务中，我在这些文本中有三个类别、数百个文档和数千个特征。在我应用一个集群后，例如来自 scikit-learn 的 KMeans 集群，我不知道如何将这些结果绘制到 2D 图形上。分类也是如此，比如说，我将文本分为三类，但我不知道如何绘制它们。

我尝试从一些示例中学习，但我发现的大多数示例都是基于具有很少特征的纯数据而不是文本。

问题：您能否向我推荐任何关于绘制文本聚类/分类结果或解释这种可视化的数学部分的教程或论文。或任何帮助将不胜感激。

2个回答

如果您正在进行分类，这应该是相当简单的。只需选择一些性能的聚合度量（例如准确度），并为 k-means 的不同随机初始化绘制该度量的分布。这为您提供了有关算法平均执行情况的一些信息。

如果您正在进行聚类（即无监督聚类），那么您可以使用矢量压缩技术制作漂亮的聚类图片。一种简单的技术可能是在空间中选择一个点，并绘制数据集中的每个点及其与该点的欧几里德距离及其类别。您还可以使用更高级的技术，例如PCA。

如果您有兴趣找出哪些特征是好的预测器，我建议在其上运行诸如最大熵分类器之类的东西，或者许多特征选择算法之一。这些技术将为您提供每个特征的权重，表明其在预测分组中的重要性。

我使用两种不同的技术将n维空间中的所有数据点向下投影到二维：PCA 或 MDS（多维缩放）。如果我有一个对应于每个数据点的n维向量，我会使用 PCA。如果生成距离矩阵比生成单个项目的精确n维位置更方便，我会使用 MDS 。将点投影到 2 空间后，使用颜色和/或形状来说明集群。如果您有一个稀疏连接的距离矩阵（即，大多数条目没有距离并且未连接），那么您可以将数据呈现为一个稀疏连接的无向图。您可以使用数百种适当的图形布局算法。

这种方法对于识别集群的结构并不是非常有用，但它至少可以为您提供所有点的漂亮图片。

其它你可能感兴趣的问题

上一篇可以强制样本中的随机性吗？下一篇AIC的两种计算方法的问题