了解卡方分布在方差置信区间中的作用

机器算法验证 数理统计 置信区间 方差 采样 卡方分布
2022-04-12 04:30:25

在我的教科书中,他们有这个不等式:

χ1α22<(n1)s2σ2<χα22

后来变成了这个声明:

(n1)s2χα22<σ2<(n1)s2χ1α22

现在我知道整个想法是找到置信区间σ2方差,但我想知道方差的分布是否正常。我也不明白为什么卡方是平方的。

当我看书中的图片时,该图片显示了一个带有卡方标记的右倾斜图(即χ0.952=4.575χ0.052=19.675),我得到的印象是我正在看类似的东西z分数。这些卡方是什么?它们是否代表偏离均值的标准差数量?

我也在math.stackexchange 部分问过这个问题,但我没有收到任何人的回复。

2个回答

方差不是正态分布的,因为方差是每个数据与分布均值的平方偏差的平均值。如果数据集中的所有数据点都相同,则偏差均为零,平方偏差及其平均值也为零。因此,0是可能的最低方差。另一方面,正态分布范围为. 因此,方差不能服从正态分布。

卡方分布与z-分数。一个z-score 是标准正态分布的分位数。也就是说,它是来自具有均值的正态分布的数据点的值0和方差1(例如,如果分布首先被标准化)。的分布z- 已平方的分数是χdf=12. 为了更全面地理解这种联系,让我们检查方差的公式:

s2=i=1N(xix¯)2N1
如果你把两边都乘以(N1)(如在你的顶部不等式中间的分子中),那么你只是有一个平方和。平方偏差的总和分布为 chi-squared换句话说,平方已经存在于s2(N1),因此您需要一个可以解决此问题的分布。(此时要回答您的一个具体问题,这不是某事物与您的平均值的标准偏差数。)

现在如果你想要一个双面1α任何东西的置信区间(包括这个作为特例),你会找到对应于α/2百分位和1α/2百分位。在这种情况下,您可以为适当的卡方分布执行此操作,该分布是卡方的(因为这些是如上所述的平方偏差之和)df=N1. 然后按照第二组不等式中的描述对该值进行缩放。(至于我们如何从第一组到第二组,这只是代数。)

方分布确实与正态分布有关。具体来说,具有 N 个自由度的卡方变量等价于 N 平方独立标准正态随机变量之和的分布,这与来自正常总体的 N 平方独立 Z 分数之和相同。

因此,要回答您的第一个问题,不。样本方差不是正态分布的。至于你关于为什么它的卡方的第二个问题......我不知道,但如果一个随机标准正态变量由 X 表示,那么X2是自由度为 1 的卡方分布。至少对我来说,我一直认为卡方符号看起来像X2,所以这是我对这个问题的唯一输入。

至于解释:由于卡方是独立标准法线的平方和,它本质上是 N 个预测/估计的平方误差之和的分布。