泊松分布数据的置信区间

机器算法验证 置信区间 泊松分布 标准差
2022-04-11 18:38:37

我想计算具有下限的变量的置信区间,但我似乎不知道该怎么做。我看过几个类似的帖子,但没有一个回答我的问题,至少没有直接回答。为简单起见,我在这里使用一个玩具示例。

具体来说,让我们考虑一下分布(我自己选择了这些数字,所以它看起来像泊松分布),

{1,2,3,5,1,2,2,3,7,2,3,4,1,5,7,6,4,1,2,2,3,9,2,1,2,2,3}

如下所示,

在此处输入图像描述

如果我计算这个分布的标准差和平均值,我分别得到 3.1 和 2.4,但由于分布不是正态分布,这并没有真正给我置信区间。我将如何正确计算置信区间?

3个回答

该答案基于评论中提供的说明:

我想发表这样的声明……“我有 68% 的把握均值介于3.1σ3.1+σ+",我想计算σ+σ.

我认为至少在物理世界中,这被称为置信区间。

让我们把它当作给定的,以回答我的问题“置信区间是什么?” 你回答说想要一个平均值的置信区间(并且明确表示,不是分布中值的其他区间)。

首先要澄清一个问题——“我有 68% 的把握均值介于两者之间”并不是置信区间上的通常解释。相反,如果您多次重复生成区间的过程,68% 的此类区间将包含该参数。

现在来解决平均值的置信区间。

我同意您对数据平均值和标准差的计算:

> x=c(1,2,3,5,1,2,2,3,7,2,3,4,1,5,7,6,4,1,2,2,3,9,2,1,2,2,3)
> mean(x);sd(x)
[1] 3.148148
[1] 2.106833

但是,平均值与从中提取数据的总体没有相同的标准差。

均值的标准误是σ/n. 我们可以从样本 sd 中估计(尽管如果数据是真正的泊松,这不是最有效的方法):

> sd(x)/sqrt(length(x))
[1] 0.4054603

如果我们假设样本均值近似正态分布(但没有利用原始数据可能的泊松假设),假设σ=s(实际上是调用 Slutsky)然后平均值的大约 68% 区间将是3.15±0.41.

然而,样本对于斯卢茨基来说还不够大。更好的间隔将考虑到不确定性σ^,也就是说,一个 68% 的 t26- 平均值的间隔是

3.15±1.013843×0.41

这只是宽一点。

现在,至于样本量是否足够大,可以应用我们刚刚使用的正态理论 CI,这取决于您的标准。在此样本量下,类似泊松均值(特别是故意选择比观测值小一些)的模拟表明,对于类似泊松率和 27 个或更多观测值,使用 t 间隔将非常有效。

如果我们考虑到数据(假设)是泊松这一事实,我们可以得到更有效的标准差估计值和μ,但如果存在泊松假设可能错误的风险——比如说,泊松参数的某些同质性导致过度分散的可能性——那么 t 间隔可能会更好。

尽管如此,我们应该考虑这个特定的问题——“如何获得泊松变量的总体平均值的置信区间”——但是这个更具体的问题已经在 CV 上得到了回答——例如,请参阅此处的最佳答案。

在原始帖子的评论中提到了它,但在这里更明确。bootstrap使用简单,背后有大量很好的渐近理论,例如 Shao 和 Tu,1995。这是一些 R 代码,可以满足我的要求:

the_data = c(1,2,3,5,1,2,2,3,7,2,3,4,1,5,7,6,4,1,2,2,3,9,2,1,2,2,3)
n_resamples = 1000
n_data = length(the_data)
bootstrap_mean = NULL
for(ii in 1:n_resamples){
  bootstrap_sample = the_data[sample(1:n_data, size = n_data, replace = T)]  
  bootstrap_mean = c(bootstrap_mean, mean(bootstrap_sample))
}
plot(density(bootstrap_mean), main = "")
## 68% bootstrap confidence interval
lower_bound = 0.16
upper_bound = 0.84
quantile(bootstrap_mean, probs = c(lower_bound, upper_bound))

对于一次运行,我得到:

     16%      84% 
2.740741 3.592593 

对于偏态分布,置信区间很棘手。一种方法是从尾部获得相等的分位数。因此,例如,如果您希望获得 95% 的置信区间,您将获得 2.5% 和 97.5% 的分位数。

你的评论关于±σ只有当您假设正态分布时,物理学中的 68% CI 才是正确的。泊松分布与正常分布完全不同,它是不对称的(偏斜的),并且如您所述具有下限。如果你真的想要 68%,那么得到 15% 和 84% 的分位数。