β-二项式与超几何共轭

机器算法验证 贝叶斯 共轭先验
2022-03-24 22:33:41

根据Wikipedia上的共轭分布表,超几何分布具有作为共轭先验的 beta-二项分布,其中感兴趣的参数是“M,目标成员的数量。”我将“目标成员”解释为,我正在建模为超几何模型,即来自包含N其中总球数M是蓝色的,NM非蓝色。

但是我无法理解共轭的说法。观察数据后,说b样本中的蓝色球,则已知M>b. 但是支持 beta 二项分布0,...,F(对于某些参数F)。那么后面怎么可能M也是β-二项式?

2个回答

Wikipedia 文章及其参考文献(Fink D.,1997)的问题在于缺少一些关键信息。

具体来说,给定的后验是Mx人口中目标个体的数量因样本中观察到的数量而变化),而不是M. 此外,缺少对应于观察次数的后验参数,应该是Nn人口规模减去样本规模)。这两个更正修复了您正确注意到的支持问题,如下所示。

假设0Xn 大小样本中目标个体的数量n从人口规模N0MN目标个体总数。

然后,XHG(n,M,N)在支持下[max(0,nN+M),min(n,M)].

如果MBB(N,α,β)是 M 的先验分布,的后验分布也是 Beta-Binomial-distributed: MMx

Mx|x,α,βBB(Nn,α+x,β+nx)

如果您为编写概率质量函数,您会在上面找到@Tim 的答案。M

作为说明,对于,让我们假设 M 的非信息性先验分布M假设我们观察到N=20n=10MMBB(N,.5,.5)x=9

library(extraDistr)
library(tidyverse)
N = 20
n = 10
a0 <- b0 <- .5
x <- 9
data.frame(
  m = 0:N
) %>% 
  mutate(
    prior = dbbinom(m, size = N, alpha = a0, beta = b0),
    post = dbbinom(m-x, size = N-n, a0+x, b0+n-x)
  ) %>% 
  gather(key, dens, -m) %>% 
  ggplot(aes(m, dens, col = key)) +
  geom_line() +
  geom_point()

reprex 包(v0.2.1)于 2018 年 10 月 10 日创建

请注意,后支撑是正确的 [ x ,  N  -  n  +  x ]。

Dyer, D. 和 Pierce, RL (1993)。关于超几何抽样中先验分布的选择。统计通讯 - 理论和方法,22(8),2125-2146。

个球的瓮中进行无放回抽样是目标球,比如说蓝色。共轭 beta-二项式先验分布导致未知形式的后验分布NMNM{x,x+1,,Nn+x}

f(Mx,N,α,β)=(NnMx)Γ(α+M)Γ(β+Nx)Γ(α+β+n)Γ(α+x)Γ(β+nx)Γ(α+β+N)

如中所述

Dyer, D. 和 Pierce, RL (1993)。关于超几何抽样中先验分布的选择。统计通讯 - 理论和方法,22(8),2125-2146。