LDA 超参数的自然解释

机器算法验证 解释 事先的 主题模型 超参数
2022-01-31 13:15:00

有人能解释一下 LDA 超参数的自然解释是什么吗?ALPHABETA分别是(每个文档)主题和(每个主题)单词分布的狄利克雷分布参数。但是,有人可以解释选择这些超参数的较大值与较小值的含义吗?这是否意味着将任何先验信念放在文档中的主题稀疏性和单词的主题互斥性方面?

这个问题是关于潜在狄利克雷分配的,但 BGREene 下面的评论指的是线性判别分析,令人困惑的是,它也缩写为 LDA。

2个回答

答案取决于您是假设对称还是非对称狄利克雷分布(或者,更专业地说,基本度量是否一致)。除非指定其他内容,否则 LDA 的大多数实现都假定分布是对称的。

对于对称分布,高 alpha 值意味着每个文档可能包含大多数主题的混合,而不是任何单个主题。较低的 alpha 值对文档的此类限制较少,并且意味着文档更有可能包含仅几个甚至仅一个主题的混合。同样,高 beta 值意味着每个主题可能包含大多数词的混合,而不是任何特定词,而低值意味着一个主题可能只包含少数词的混合。

另一方面,如果分布是不对称的,则高 alpha 值意味着每个文档更可能出现特定主题分布(取决于基本度量)。同样,高 beta 值意味着每个主题更有可能包含由基本度量定义的特定单词组合。

在实践中,高 alpha 值将导致文档在它们包含的主题方面更加相似。高 beta 值同样会导致主题在它们包含的单词方面更加相似。

所以,是的,alpha 参数指定了有关文档中主题稀疏性/一致性的先验信念。不过,我不完全确定您所说的“主题在词语方面的相互排斥”是什么意思。


更一般地说,这些是LDA 模型中使用的狄利克雷分布的浓度参数为了直观地理解其工作原理,本演示文稿包含一些精美的插图,以及对 LDA 的一般解释。


我将在此处添加一条附加评论,因为我无法评论您的原始问题:根据我所见,alpha 和 beta 参数可能会有些混淆地指代几种不同的参数化。基本的狄利克雷分布通常用向量参数化,但这可以分解为基本度量和浓度参数,使得在 alpha 参数是标量的情况下,它通常表示浓度参数,但它也可以表示(α1,α2,...,αK)u=(u1,u2,...,uK)ααu=(α1,α2,...,αK)α(α1,α2,...,αK),因为在对称狄利克雷分布下这些将相等。如果是向量,通常指的是我不确定哪种参数化最常见,但在我的回复中,我假设您的意思是将 alpha 值和 beta 值作为浓度参数。(α1,α2,...,αK)

David Blei 向暑期班的学生介绍了 LDA:http: //videolectures.net/mlss09uk_blei_tm/

在第一个视频中,他广泛介绍了主题建模的基本概念以及 Dirichlet 分布如何发挥作用。板符号被解释为好像观察到所有隐藏变量以显示依赖关系。基本上,主题是单词的分布和主题的文档分布。

在第二个视频中,他通过一些示例图展示了 alpha 的效果。alpha 越小,分布越稀疏。此外,他还介绍了一些推理方法。