使用 LDA 生成的主题词来表示文档

机器算法验证 特征选择 文本挖掘 主题模型 潜在狄利克雷分配
2022-03-17 18:17:18

我想通过将每个文档表示为一组特征来进行文档分类。我知道有很多方法:BOW,TFIDF,...

我想使用 Latent Dirichlet Allocation (LDA) 来提取 EACH SINGLE 文档的主题关键字。文档由这些主题词表示。但是我不知道这是否合理,因为我认为LDA通常用于提取A BUNCH OF文档共享的主题词。

LDA 可以用来检测 A SINGLE 文档的主题吗?

1个回答

LDA 可以用来检测 A SINGLE 文档的主题吗?

是的,在其特定的“主题”表示中,并给出了(通常相关的)文档的训练语料库。

LDA 将主题表示为单词的分布,将文档表示为主题的分布。也就是说,LDA 的一个目的就是将每个文档的概率表示为一组主题。例如,LDA 实现gensim可以为任何给定文档返回此表示。

但这取决于语料库中的其他文档:如果作为不同语料库的一部分进行分析,任何给定的文档都会有不同的表示。

这通常不被认为是一个缺点:LDA 的大多数应用程序都集中在相关文档上。介绍 LDA的论文将其应用于两个语料库,一篇美联社文章和一篇科学文章摘要。Edwin Chen 平易近人的博客文章将 LDA 应用于 Sarah Palin 担任阿拉斯加州长期间的一系列电子邮件。

如果您的应用程序需要将文档分成已知的、互斥的类,那么 LDA 派生的主题可以用作分类的特征。事实上,最初的论文就是用 AP 语料库做的,结果很好。

与此相关的是,Chen 的演示并未将文档分类为专有类别,但他的文档主要集中在单个 LDA 主题上的概率。正如 David Blei 在此视频讲座中解释的那样,可以选择 Dirichlet 先验来支持稀疏性。更简单地说,正如他的幻灯片所说,“一份文件因使用许多主题而受到惩罚”。这似乎是最接近的 LDA 可以到达单个无监督主题,但当然不能保证每个文档都可以这样表示。