从狄利克雷分布中采样概率向量是什么意思?

机器算法验证 可能性 分布 采样 狄利克雷分布
2022-04-04 23:14:44

我基本上是在学习潜在的狄利克雷分配。我在这里观看视频:http: //videolectures.net/mlss09uk_blei_tm/并停留在第 45 分钟,当时他开始解释从分布中抽样。

我还尝试查阅一本没有详细介绍 Dirichelt 分布的机器学习书籍。在我正在阅读的书中提到了一个从狄利克雷分布中采样“概率向量”的示例,但这意味着什么?

我将分布中的抽样理解为根据分布获取随机变量的随机值。所以让 p_X,Y(x,y) 但是任何分布的 pmf,从这个分布中采样意味着我得到一个随机的 (x,y)(即 x 和 y 的随机值)。为了获得事件发生的概率(X=x AND Y=y),我们评估分布的 pmf ......所以我们只得到一个数字。但是这里的“概率向量”是什么!

我附上了这本书的截图。我真的希望你能帮忙!

在此处输入图像描述

1个回答

狄利克雷分布通常用于在几个类别中对事件进行概率分类。假设天气事件采用狄利克雷分布。然后我们可能会认为明天天气晴天的概率等于 0.25,下雨的概率等于 0.5,下雪的概率等于 0.25。将这些值收集在一个向量中会创建一个概率向量。

考虑狄利克雷分布的另一种方法是折断棍子的过程。想象一根单位长度的棍子。在任何地方折断那根棍子并保留两块之一。然后将剩余的部分分成两部分,并根据需要继续进行。所有片段加在一起必须总和为单位长度,将不同长度的片段分配给不同的事件代表该事件的概率。

如果您熟悉 beta 分布,Dirichlet 分布可能会变得更加清晰。贝塔分布通常用于描述二分事件的概率分布,因此它仅限于单位区间。例如,对于伯努利试验,只有一个参数θ描述“成功”的概率。很多时候我们会想到θ是固定的,但如果我们不确定θ,我们可以考虑所有可能的分布θs,对于我们认为更合理的那些可能性更大,所以也许θB(α,β), 在哪里α>β将更多的质量集中在 1 附近并且β>α将更多的质量集中在 0 附近。

有人可能会反对 beta 分布仅描述单个概率的概率,例如,P(θ<0.25)=0.5,这是一个标量数。但请记住,beta 分布描述的是二分法结果。所以通过应用 Kolmogorov 的第二公理,我们也知道P(θ0.25)=0.5也是。将这些结果收集到一个向量中,就为我们提供了一个概率向量。

将 beta 分布扩展到三个或更多类别,得到 Dirichlet 分布;事实上,两组的 Dirichlet 的 PDF 与 beta 分布完全相同。