我正在学习机器学习课程,他们说了以下两个让我感到困惑的短语:
每个文档都是关于主题的分布。
和
每个主题都是单词的分布。
我想知道是否有人知道那是什么意思。
这是笔记的链接:
http://people.csail.mit.edu/moitra/docs/bookex.pdf
目前这就是我解释它的方式(我的想法)。
好吧,我们将主题建模为向量与每个单词的相对频率。所以它只是指定每个单词在特定主题中出现的频率。另外,每个文档都可以近似地认为是这些主题向量的线性组合,即文档
以为我不确定这是否正确或如何将“分发”的概念包括在内。
