我有一个带参数的二项分布和,并且我的分布均值的估计值为 N. 的价值观和是这样的,我们可以使用高斯近似来估计的平均值为. 问题是我已经估计, 所以实际上是具有已知均值的高斯分布,并且. 我的目标是为我的二项分布的平均值找到一个置信区间,但是我如何获取不确定性考虑到?
在估计二项分布的均值时考虑 p 的不确定性
你的方法有几个问题。首先,您想将置信区间用于它们不是为之设计的东西。如果变化,那么置信区间不会显示它是如何变化的。检查为什么 95% 置信区间 (CI) 并不意味着 95% 的机会包含平均值?了解有关置信区间的更多信息。此外,正如Brown等人(2001)所述,对二项式比例及其置信区间使用正态近似并不是一个好主意。
事实上,从你的描述听起来你想估计贝叶斯可信区间,即包含一定比例的区间的分布。是的,我说的是贝叶斯,因为实际上您已经将问题定义为贝叶斯模型。你说你假设是一个随机变量,而在常客设置中将是一个固定参数。如果您已经假设了,为什么不对数据使用贝叶斯模型呢?您将使用beta-binomial 模型(另请参阅Dan Navarro 和 Amy Perfors对 Beta-Binomial 模型的介绍)。在这种情况下,估计这种模型非常容易。我们可以定义如下:
所以,你的数据遵循参数化的二项分布和, 在哪里是一个随机变量。我们假设带有参数的beta 分布和作为先验_. 我想如果你想使用频率论方法,你对可能的分布没有任何先验知识,所以你会选择参数化的“无信息”先验, 或者(如果您愿意,您可以将这些参数转换为均值和精度,或均值和方差)。更新您的先验后验分布后只是一个参数化的 beta 分布
平均
要阅读有关计算此分布的其他数量的更多信息,请查看 Wikipedia article on beta-binomial distribution。您可以通过 (a) 对 beta-二项分布的累积分布函数进行数值反转,或 (b) 从 beta-二项分布中采样大量随机值,然后从中计算样本分位数,以数值方式计算可信区间。第二种方法非常简单,因为您只需要按顺序重复以下过程:
- 画来自参数化的 beta 分布和,
- 画从参数化的二项分布和.
直到您抽取足够大的样本以发现它对计算感兴趣的数量有信心。
当然,如果你知道平均值和标准差并且您坚持使用正态分布,您也可以使用模拟,但使用正态分布来模拟. 下面我为这种模拟提供了 R 中的代码示例。
R <- 1e5 # number of samples to draw in simulation
N <- 500 # known N
mu <- 0.3 # known mean of p
sigma <- 0.07 # known standard deviation of p
p <- rnorm(R, mu, sigma) # simulate p
x <- rbinom(R, N, p) # simulate X
mean(x) # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)
或者您可以使用正态累积分布函数的逆函数简单地取适当的分位数并将它们乘以. 但是请记住,这不是置信区间,而是可信区间。
Brown, LD, Cai, TT 和 DasGupta, A. (2001)。二项式比例的区间估计。统计科学,101-117。