我有以下问题:假设我们有兴趣估计英文字母的分布。我们假设一个由 26 个字母和空格符号组成的字母表,我们忽略所有其他标点符号和大小写区分。我们将 27 个符号的分布建模为参数化的多项式θ = (θ1, . . . ,θ27)在哪里∑iθi=1和所有θi≥0/
现在我们去斯坦福的绿色图书馆,重复以下实验:随机拿起一本书,打开一页,在页面上选择一个位置,然后写下我们字母表中最近的符号。我们用X[m]表示我们在mth实验。
最后我们收集了一个数据库D={x[1],...,x[2000]}由2000个符号组成,其中“a”出现100次,“p”出现87次。我们使用 Dirichlet 先于θ, IEP(θ)=Dirichlet(α1,...,α27), 其中每个αi=10.
假设我们再画两个样本,X[2001] 和 X[2002]。如果我们使用αi=10对全部i, 的概率是多少P(X[2001]="p",X[2002]="a"|D)?
我以为我们可以计算:P(x[2001]=p|D)×P(x[2002]=a|D)=10+87270+2001×10+100270+2002但这是错误的。
召回公式:P(x|u,D)=αx,u+M[x,u]αu+M[u]