使用狄利克雷先验学习 - 概率图模型练习

数据挖掘 机器学习 图形模型
2022-02-19 06:22:58

我有以下问题:假设我们有兴趣估计英文字母的分布。我们假设一个由 26 个字母和空格符号组成的字母表,我们忽略所有其他标点符号和大小写区分。我们将 27 个符号的分布建模为参数化的多项式θ=(θ1,...,θ27)在哪里iθi=1和所有θi0/

现在我们去斯坦福的绿色图书馆,重复以下实验:随机拿起一本书,打开一页,在页面上选择一个位置,然后写下我们字母表中最近的符号。我们用X[m]表示我们在mth实验。

最后我们收集了一个数据库D={x[1],...,x[2000]}由2000个符号组成,其中“a”出现100次,“p”出现87次。我们使用 Dirichlet 先于θ, IEP(θ)=Dirichlet(α1,...,α27), 其中每个αi=10.

假设我们再画两个样本,X[2001] 和 X[2002]。如果我们使用αi=10对全部i, 的概率是多少P(X[2001]="p",X[2002]="a"|D)?

我以为我们可以计算:P(x[2001]=p|D)×P(x[2002]=a|D)=10+87270+2001×10+100270+2002但这是错误的。

召回公式:P(x|u,D)=αx,u+M[x,u]αu+M[u]

1个回答

你的公式是正确的,但最终的计算是错误的。它应该是:10+87270+2000×10+100270+2001