在估计二项分布的均值时考虑 p 的不确定性

机器算法验证 置信区间 二项分布 β-二项分布 可信区间
2022-04-04 01:28:41

我有一个带参数的二项分布Np,并且我的分布均值的估计值为 N×p. 的价值观Np是这样的,我们可以使用高斯近似来估计σ的平均值为(n×p(1p). 问题是我已经估计p, 所以p实际上是具有已知均值的高斯分布,并且σ. 我的目标是为我的二项分布的平均值找到一个置信区间,但是我如何获取不确定性p考虑到?

1个回答

你的方法有几个问题。首先,您想将置信区间用于它们不是为之设计的东西。如果p变化,那么置信区间不会显示它是如何变化的。检查为什么 95% 置信区间 (CI) 并不意味着 95% 的机会包含平均值?了解有关置信区间的更多信息。此外,正如Brown等人(2001)所述,对二项式比例及其置信区间使用正态近似并不是一个好主意。

事实上,从你的描述听起来你想估计贝叶斯可信区间,即包含一定比例的区间p的分布。是的,我说的是贝叶斯,因为实际上您已经将问题定义为贝叶斯模型。你说你假设p是一个随机变量,而在常客设置中p将是一个固定参数。如果您已经假设了,为什么不对数据使用贝叶斯模型呢?您将使用beta-binomial 模型(另请参阅Dan Navarro 和 Amy Perfors对 Beta-Binomial 模型的介绍)。在这种情况下,估计这种模型非常容易。我们可以定义如下:

XBinomial(N,p)pBeta(α,β)

所以,你的数据X遵循参数化的二项分布Np, 在哪里p是一个随机变量。我们假设带有参数的beta 分布αβ作为先验_p. 我想如果你想使用频率论方法,你对可能的分布没有任何先验知识p,所以你会选择参数化的“无信息”先验α=β=1, 或者α=β=0.5(如果您愿意,您可以将这些参数转换为均值和精度,或均值和方差)。更新您的先验分布p只是一个参数化的 beta 分布

α=α+total number of successesβ=β+total number of failures

平均

E(X)=Nαα+β

要阅读有关计算此分布的其他数量的更多信息,请查看 Wikipedia article on beta-binomial distribution您可以通过 (a) 对 beta-二项分布的累积分布函数进行数值反转,或 (b) 从 beta-二项分布中采样大量随机值,然后从中计算样本分位数,以数值方式计算可信区间。第二种方法非常简单,因为您只需要按顺序重复以下过程:

  1. p来自参数化的 beta 分布αβ,
  2. x从参数化的二项分布pN.

直到您抽取足够大的样本以发现它对计算感兴趣的数量有信心。


当然,如果你知道平均值和标准差p并且您坚持使用正态分布,您也可以使用模拟,但使用正态分布来模拟p. 下面我为这种模拟提供了 R 中的代码示例。

R <- 1e5                       # number of samples to draw in simulation
N <- 500                       # known N
mu <- 0.3                      # known mean of p
sigma <- 0.07                  # known standard deviation of p
p <- rnorm(R, mu, sigma)       # simulate p
x <- rbinom(R, N, p)           # simulate X
mean(x)                        # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)

或者您可以使用正态累积分布函数的逆函数简单地取适当的分位数并将它们乘以N. 但是请记住,这不是置信区间,而是可信区间。


Brown, LD, Cai, TT 和 DasGupta, A. (2001)。二项式比例的区间估计。统计科学,101-117。