我有一个 twitter 数据集,我想提取他们的相关主题。因此,我决定使用无监督机器学习算法(如 k-means)将我的推文分类。这种选择是由于监督方法中的训练过程非常耗时。
因此,作为清理推文后的第一步,我将从它们中提取特征(例如 Hashtags...),并使用来自知识库(例如 Wikipedia)的辅助信息来丰富它们。其次,它们将在向量空间中表示。接下来,使用 k-means 并且对于给定的 K=6 个集群,我已经丰富的推文将被分类为 6 个集群。
但是,我不知道如何自动识别与这些集群相关的主题。有什么解决办法吗?