数据挖掘 - alpha 和 beta 超参数对潜在 Dirichlet 分配有何贡献？ - 吾爱随笔录

alpha 和 beta 超参数对潜在 Dirichlet 分配有何贡献？

数据挖掘主题模型低密度脂蛋白范围

2021-10-05 23:03:57

LDA 有两个超参数，调整它们会改变诱导的主题。

alpha 和 beta 超参数对 LDA 有什么贡献？

如果一个或另一个超参数增加或减少，主题将如何变化？

为什么它们是超参数而不仅仅是参数？

2个回答

Dirichlet 分布是一个多元分布。我们可以将 Dirichlet 的参数表示为大小为 K 的向量，形式为 ~ $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ ，在哪里 $a$ 是大小的向量 $K$ 的参数，和 $\sum x_i = 1$ .

现在 LDA 使用一些结构，例如：

一个文档可以有多个主题（由于这种多样性，我们需要 Dirichlet 分布）；并且有一个 Dirichlet 分布可以模拟这种关系
当您在文档之外考虑单词时，单词也可以属于多个主题；所以在这里我们需要另一个 Dirichlet 来建模

前两个是你从数据中看不到的分布，这就是为什么被称为潜在的或隐藏的。

现在，在贝叶斯推理中，您使用贝叶斯规则来推断后验概率。为简单起见，假设您有数据 $x$ 你有一个由一些参数控制的数据模型 $\theta$ . 为了推断此参数的值，在完整的贝叶斯推断中，您将使用贝叶斯规则推断这些参数的后验概率

p (θ | x) = \frac{p (x | θ) p (θ | α)}{p (x | α)} ⟺ posterior probability = \frac{likelihood \times prior probability}{marginal likelihood}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$ 请注意，这里有一个

α

$\alpha$ . 这是你对这个分布的最初信念，也是先验分布的参数。通常，这是以具有共轭先验的方式选择的（因此后验的分布与先验的分布相同），并且如果你有一个知识，通常会编码一些知识，或者如果你一无所知，则通常具有最大熵.

先验的参数称为超参数。因此，在 LDA 中，主题分布、文档和词上都有对应的先验，通常用 alpha 和 beta 表示，因为先验分布的参数称为超参数。

现在关于选择先验。如果您绘制一些 Dirichlet 分布，您会注意到，如果各个参数 $\alpha_k$ 具有相同的值，pdf 在由定义的单纯形中是对称的 $x$ 值，即 pdf 的最小值或最大值位于中心。

如果所有的 $\alpha_k$ 具有低于单位的值，在拐角处找到最大值

或者如果所有值都可以 $\alpha_k$ 相同且大于 1 最大值将在中心找到

很容易看出，如果值为 $\alpha_k$ 不相等，对称性被打破，最大值将在更大的值附近找到。

另外，请注意，先验参数的值会产生分布的平滑 pdf，因为参数的值接近 1。因此，如果您非常有信心以您所知道的方式清楚地分布某些东西，并且有很高的置信度，那么将使用绝对值远离 1 的值，如果您没有这种知识，那么接近 1 的值将被编码为这种缺乏知识。从分布本身的公式很容易看出为什么 1 在狄利克雷分布中起如此重要的作用。

理解这一点的另一种方法是查看先验编码先验知识。同时，您可能会认为先验编码了一些先验数据。这些数据不是算法本身看到的，是你看到的，你学到了一些东西，你可以根据你所知道的（学到的）先建模。因此，在先前的参数（超参数）中，您还编码了您先验看到的这个数据集有多大，因为总和 $\alpha_k$ 也可以是这个或多或少的虚构数据集的大小。所以先验数据集越大，置信度越大，值越大 $\alpha_k$ 您可以选择，接近最大值的表面越锐利，这意味着怀疑也越少。

希望它有所帮助。

假设对称 Dirichlet 分布（为简单起见），较低的 alpha 值更重视让每个文档仅由少数主要主题组成（而较高的值将返回更多相对主要的主题）。同样，较低的 beta 值更重视让每个主题仅由几个主导词组成。

其它你可能感兴趣的问题

上一篇Adaboost 与梯度提升下一篇使seaborn热图更大