在文本分类和聚类中,特征的数量通常很大,例如我目前得到的特征是大约 5,000 个,与许多其他文本挖掘任务相比已经非常少了。鉴于我对可视化完全陌生,我不知道应该如何绘制文本分类和聚类的结果。
例如,在一项聚类任务中,我在这些文本中有三个类别、数百个文档和数千个特征。在我应用一个集群后,例如来自 scikit-learn 的 KMeans 集群,我不知道如何将这些结果绘制到 2D 图形上。分类也是如此,比如说,我将文本分为三类,但我不知道如何绘制它们。
我尝试从一些示例中学习,但我发现的大多数示例都是基于具有很少特征的纯数据而不是文本。
问题:您能否向我推荐任何关于绘制文本聚类/分类结果或解释这种可视化的数学部分的教程或论文。或任何帮助将不胜感激。