我希望以清晰的方式解释我想做什么。我有超过 50000 条推文,我想在主题上添加一些标签。所以我使用 LDA 来做到这一点。我还使用 k-means 对它们进行分组并尝试预测集群(但不是主题)。我想知道是否可以将从 LDA 中找到的主题与集群相关联,或者这两种方法在同时使用时是否毫无价值。
用于文本分类的 K-means 和 LDA
数据挖掘
k-均值
低密度脂蛋白
文本分类
2022-02-23 09:39:17
1个回答
尝试从更广泛的角度来看待它,您实际上正在做的是想要基于您的集群和 LDA 分配的主题构建一种多类分类模型。
这就像想要一个聚类模型和一个分类模型做同样的事情,这最终取决于数据点所在的维度空间及其各自的向量。
我假设您必须使用某种推文到矢量的转换方法来表示推文,例如词袋或手套 doc2vec 或其他东西。现在在这个向量空间上创建集群并希望这样做与 LDA 所做的相同的隔离来分配主题是非常牵强的。我不这么认为,您的向量空间将与 LDA 为您的集群生成的主题非常一致,以反映相同。聚类也基于某些属性将数据点放在相同的集群中,但是如果数据维度非常困难,那么确定为什么要基于这些属性创建集群是非常困难的。
其它你可能感兴趣的问题