用于主题建模的 TF-IDF

数据挖掘 nlp 主题模型 低密度脂蛋白 tfidf 斯坦福-nlp
2022-03-05 19:01:30

TF-IDF 可以作为主题建模的唯一方法吗?(我知道有更好的方法,如 LDA 、 LSA 等)

我只是想了解仅 TF-IDF 是否可以帮助我们进行主题建模。如果是,有人可以解释这个简单的框架是如何工作的吗?

我想了解 TF-IDF 作为主题建模的唯一方法的应用和功能。我在互联网上的其他任何地方都找不到这个。

1个回答

形式上,主题建模问题是一个聚类问题:给定一组文本文档,将主题相似的文档组合在一起。

所以从技术上讲,它确实可以使用 TF-IDF 表示的文档来完成,如下所示:

  1. 收集所有文档的全局词汇表并计算每个单词的 IDF。
  2. 以通常的方式将每个文档表示为 TF-IDF 向量:对于每个单词,获取文档中的词频 (TF),然后乘以该单词的全局 IDF (IDF)。请注意,每个向量都必须代表全局词汇表上的文档。
  3. 在文档的向量表示上使用任何聚类方法:K-means层次聚类等。

请注意,此方法不太可能与最先进的主题建模方法一样好。