泊松随机变量的样本方差分布是什么?

机器算法验证 分布 方差 泊松分布 样本
2022-04-09 16:20:12

泊松随机变量的均值和方差X都是λ但是什么是分布varX跨越一系列实验,每次都重新计算?我想为许多实验的均值方差图计算一个包络,并想知道它们是否是一个分析公式作为抽样的替代方案。

正式地,假设我有K实验每个n观察。然后让XkjP(λ)每个实验kj=1,,n. 对于每个实验k=1,,K,然后我可以计算出

sk2=var{Xij:i=k,j=1,,n}.

我的问题是统计数据的分布是什么{s12,,sK2}? 对于正态分布,这将是χ2. 泊松有类似物吗?

1个回答

样本方差的分布有点棘手,特别是因为样本均值进入其中的方式。

注意

  1. 它具有离散分布,

  2. 通过从样本均值中获取偏差,正偏差和负偏差的大小将因样本而异,并且通常不会具有相同的大小(例如,想象n=10意思是1.9; 然后偏差(xix¯) 对于高于平均值的值,将是0.1或者1.1或者2.1,而下面的将是0.9或者1.9; 但在下一个样本中,平均值可能是1.7,所以偏差将是像0.3或者1.7)

  3. 即使在一个样本内,平方也会使偏差高于和低于不同大小的平均值(考虑平均值的偏差 -1.9、-0.9、0.1、1.1、2.1;它们的平方是 3.61、0.81、0.01、1.21 和 4.41,所以这些相邻值之间的差距以不同的增量跳跃......然后这些是“平均的” - 但有n-1分母 - 产生样本方差)

结果,您在一组非常复杂的值上具有离散分布(该组的大小可数无限)。所取值的集合也随样本大小而变化(n=3 产生的可能值集合与 n=10 不同)。这是一个模拟示例(尽管模拟如此之大,以至于显示的分布本质上是人口 cdf - 它精确到大约一个像素):

Poisson(1) 的样本方差的 ECDF,n=10

相同分布的样本 pmf

我们可以清楚地看到分布中的“块状”——不均匀的间距,以及大小概率的混杂。

在不同的值下,分布当然是不同的n和泊松均值,但总体印象(块状离散分布,间距不均匀和概率的不规则进展) - 不出所料 - 在一系列值中相似。

如果您想取消某种形式的总体方差置信区间,这个问题就更加棘手了,因为我很确定您不会有一个关键的数量可以使用。

但是,您也许可以通过近似得到某个地方。特别是上尾比下尾平滑一点,并且可能适合连续近似。

它看起来像要么大λ或大样本将给出可能具有缩放卡方近似的平滑结果。