为什么我们不应该用 tfidf 喂 LDA

数据挖掘 机器学习 Python 主题模型 低密度脂蛋白
2021-10-08 05:54:32

有人可以解释为什么我们不能用TFIDF提供LDA主题模型吗?这种方法在概念上有什么问题?

2个回答

由于问题评论中的 StackOverflow 链接似乎已损坏,因此这里有另一个解决相同问题的回复:https ://stackoverflow.com/a/44789327/6470915

直接报价:

事实上,Blei(开发 LDA)在 2003 年的论文(题为“Latent Dirichlet Allocation”)的介绍中指出,LDA 解决了 TF-IDF 模型的缺点并将这种方法抛在了脑后。LSA 是完全代数的,通常(但不一定)使用 TF-IDF 矩阵,而 LDA 是一种概率模型,它试图估计文档中的主题和主题中的单词的概率分布。为此不需要对 TF-IDF 进行加权。

这在高层次上进行了总结。从技术上理解为什么使用 TF-IDF 模型的性能会更差会很有趣。实际上,SO 链接中有另一个回复声称可以使用 TF-IDF 改进 LDA。

LDA 是一个词生成模型,它假设一个词是从多项分布中生成的。说 0.5 个单词(tf-idf 权重)是从某个分布中生成的是没有意义的。在 Gensim 实现中,可以将 TF 替换为 TF-IDF,而在其他一些实现中,只允许整数输入。