说“主题是单词的分布”是什么意思?

机器算法验证 机器学习 主题模型
2022-03-25 16:23:09

我正在学习机器学习课程,他们说了以下两个让我感到困惑的短语:

每个文档都是关于主题的分布。

每个主题都是单词的分布。

我想知道是否有人知道那是什么意思。

这是笔记的链接:

http://people.csail.mit.edu/moitra/docs/bookex.pdf


目前这就是我解释它的方式(我的想法)。

好吧,我们将主题建模为向量(一世)与每个单词的相对频率。所以它只是指定每个单词在特定主题中出现的频率。另外,每个文档都可以近似地认为是这些主题向量的线性组合,即文档j=一世=1rw一世(一世)

以为我不确定这是否正确或如何将“分发”的概念包括在内。

1个回答

通常,在潜在狄利克雷分配(用于主题建模)的上下文中,我们假设文档来自生成过程。我会避免使用数学符号。看这个图:

生成过程

  • (1) 每个主题都是从 Dirichlet 分布生成的尺寸是你的词汇量。

  • (2) 对于每个文件:

    • (2.1) 从 Dirichlet 分布生成主题分布尺寸是语料库中的主题数。
    • (2.2) 对于文档中的每个单词:
      • (2.2.1) 根据(2.1)生成的分布选择主题
      • (2.2.2) 根据所选主题对应的分布选择一个词(在(1)处生成)

这里有严格的数学解释(第 3 节)。

因此,每个主题都是词汇表 (1) 中单词的概率分布,因为它表示在该主题中出现单词“dog”的概率。

每个文档都有一个关于主题的概率分布(2.1),它表示文档更有可能从哪些主题中提取单词。我们说文档是主题的混合

笔记:

  • 三个维度的狄利克雷分布绘制像[0.2,0.4,0.4],[0.3,0.3,0.4]等,可以用作分类分布。这就是为什么它被用来生成分布词(主题)和分布话题。看图的左右两边。