该答案基于评论中提供的说明:
我想发表这样的声明……“我有 68% 的把握均值介于3.1−σ−和3.1+σ+",我想计算σ+和σ−.
我认为至少在物理世界中,这被称为置信区间。
让我们把它当作给定的,以回答我的问题“置信区间是什么?” 你回答说想要一个平均值的置信区间(并且明确表示,不是分布中值的其他区间)。
首先要澄清一个问题——“我有 68% 的把握均值介于两者之间”并不是置信区间上的通常解释。相反,如果您多次重复生成区间的过程,68% 的此类区间将包含该参数。
现在来解决平均值的置信区间。
我同意您对数据平均值和标准差的计算:
> x=c(1,2,3,5,1,2,2,3,7,2,3,4,1,5,7,6,4,1,2,2,3,9,2,1,2,2,3)
> mean(x);sd(x)
[1] 3.148148
[1] 2.106833
但是,平均值与从中提取数据的总体没有相同的标准差。
均值的标准误是σ/n−−√. 我们可以从样本 sd 中估计(尽管如果数据是真正的泊松,这不是最有效的方法):
> sd(x)/sqrt(length(x))
[1] 0.4054603
如果我们假设样本均值近似正态分布(但没有利用原始数据可能的泊松假设),并假设σ=s(实际上是调用 Slutsky)然后平均值的大约 68% 区间将是3.15±0.41.
然而,样本对于斯卢茨基来说还不够大。更好的间隔将考虑到不确定性σ^,也就是说,一个 68% 的 t26- 平均值的间隔是
3.15±1.013843×0.41
这只是宽一点。
现在,至于样本量是否足够大,可以应用我们刚刚使用的正态理论 CI,这取决于您的标准。在此样本量下,类似泊松均值(特别是故意选择比观测值小一些)的模拟表明,对于类似泊松率和 27 个或更多观测值,使用 t 间隔将非常有效。
如果我们考虑到数据(假设)是泊松这一事实,我们可以得到更有效的标准差估计值和μ,但如果存在泊松假设可能错误的风险——比如说,泊松参数的某些同质性导致过度分散的可能性——那么 t 间隔可能会更好。
尽管如此,我们应该考虑这个特定的问题——“如何获得泊松变量的总体平均值的置信区间”——但是这个更具体的问题已经在 CV 上得到了回答——例如,请参阅此处的最佳答案。