机器算法验证 - 泊松分布数据的置信区间 - 吾爱随笔录

泊松分布数据的置信区间

机器算法验证置信区间泊松分布标准差

2022-04-11 18:38:37

我想计算具有下限的变量的置信区间，但我似乎不知道该怎么做。我看过几个类似的帖子，但没有一个回答我的问题，至少没有直接回答。为简单起见，我在这里使用一个玩具示例。

具体来说，让我们考虑一下分布（我自己选择了这些数字，所以它看起来像泊松分布），

{1,2,3,5,1,2,2,3,7,2,3,4,1,5,7,6,4,1,2,2,3,9,2,1,2,2,3}

如下所示，

在此处输入图像描述

如果我计算这个分布的标准差和平均值，我分别得到 3.1 和 2.4，但由于分布不是正态分布，这并没有真正给我置信区间。我将如何正确计算置信区间？

3个回答

该答案基于评论中提供的说明：

我想发表这样的声明……“我有 68% 的把握均值介于 $3.1−σ_−$ 和 $3.1+σ_+$ "，我想计算 $σ_+$ 和 $σ_−$ .

我认为至少在物理世界中，这被称为置信区间。

让我们把它当作给定的，以回答我的问题“置信区间是什么？” 你回答说想要一个平均值的置信区间（并且明确表示，不是分布中值的其他区间）。

首先要澄清一个问题——“我有 68% 的把握均值介于两者之间”并不是置信区间上的通常解释。相反，如果您多次重复生成区间的过程，68% 的此类区间将包含该参数。

现在来解决平均值的置信区间。

我同意您对数据平均值和标准差的计算：

> x=c(1,2,3,5,1,2,2,3,7,2,3,4,1,5,7,6,4,1,2,2,3,9,2,1,2,2,3)
> mean(x);sd(x)
[1] 3.148148
[1] 2.106833

但是，平均值与从中提取数据的总体没有相同的标准差。

均值的标准误是 $\sigma/\sqrt{n}$ . 我们可以从样本 sd 中估计（尽管如果数据是真正的泊松，这不是最有效的方法）：

> sd(x)/sqrt(length(x))
[1] 0.4054603

如果我们假设样本均值近似正态分布（但没有利用原始数据可能的泊松假设），并假设 $\sigma=s$ （实际上是调用 Slutsky）然后平均值的大约 68% 区间将是 $3.15\pm 0.41$ .

然而，样本对于斯卢茨基来说还不够大。更好的间隔将考虑到不确定性 $\hat \sigma$ ，也就是说，一个 68% 的 t $_{26}$ - 平均值的间隔是

$3.15\pm 1.013843\times 0.41$

这只是宽一点。

现在，至于样本量是否足够大，可以应用我们刚刚使用的正态理论 CI，这取决于您的标准。在此样本量下，类似泊松均值（特别是故意选择比观测值小一些）的模拟表明，对于类似泊松率和 27 个或更多观测值，使用 t 间隔将非常有效。

如果我们考虑到数据（假设）是泊松这一事实，我们可以得到更有效的标准差估计值和 $\mu$ ，但如果存在泊松假设可能错误的风险——比如说，泊松参数的某些同质性导致过度分散的可能性——那么 t 间隔可能会更好。

尽管如此，我们应该考虑这个特定的问题——“如何获得泊松变量的总体平均值的置信区间”——但是这个更具体的问题已经在 CV 上得到了回答——例如，请参阅此处的最佳答案。

在原始帖子的评论中提到了它，但在这里更明确。bootstrap使用简单，背后有大量很好的渐近理论，例如 Shao 和 Tu，1995。这是一些 R 代码，可以满足我的要求：

the_data = c(1,2,3,5,1,2,2,3,7,2,3,4,1,5,7,6,4,1,2,2,3,9,2,1,2,2,3)
n_resamples = 1000
n_data = length(the_data)
bootstrap_mean = NULL
for(ii in 1:n_resamples){
  bootstrap_sample = the_data[sample(1:n_data, size = n_data, replace = T)]  
  bootstrap_mean = c(bootstrap_mean, mean(bootstrap_sample))
}
plot(density(bootstrap_mean), main = "")
## 68% bootstrap confidence interval
lower_bound = 0.16
upper_bound = 0.84
quantile(bootstrap_mean, probs = c(lower_bound, upper_bound))

对于一次运行，我得到：

     16%      84% 
2.740741 3.592593

对于偏态分布，置信区间很棘手。一种方法是从尾部获得相等的分位数。因此，例如，如果您希望获得 95% 的置信区间，您将获得 2.5% 和 97.5% 的分位数。

你的评论关于 $\pm\sigma$ 只有当您假设正态分布时，物理学中的 68% CI 才是正确的。泊松分布与正常分布完全不同，它是不对称的（偏斜的），并且如您所述具有下限。如果你真的想要 68%，那么得到 15% 和 84% 的分位数。

其它你可能感兴趣的问题

上一篇如何处理逻辑回归中的缺失数据？下一篇不平衡数据集的训练和测试