机器算法验证 - 了解卡方分布在方差置信区间中的作用 - 吾爱随笔录

了解卡方分布在方差置信区间中的作用

机器算法验证数理统计置信区间方差采样卡方分布

2022-04-12 04:30:25

在我的教科书中，他们有这个不等式：

χ_{1 - \frac{α}{2}}^{2} < \frac{(n - 1) s^{2}}{σ^{2}} < χ_{\frac{α}{2}}^{2}

$\chi_{1-\frac{\alpha}{2}}^2 < \frac{(n-1)s^2}{\sigma^2} < \chi_{\frac{\alpha}{2}}^2$

后来变成了这个声明：

\frac{(n - 1) s^{2}}{χ_{\frac{α}{2}}^{2}} < σ^{2} < \frac{(n - 1) s^{2}}{χ_{1 - \frac{α}{2}}^{2}}

$\frac{(n-1)s^2}{\chi_{\frac{\alpha}{2}}^2 } < \sigma^2 < \frac{ (n-1)s^2}{ \chi_{1-\frac{\alpha}{2}}^2}$

现在我知道整个想法是找到置信区间 $\sigma^2$ 方差，但我想知道方差的分布是否正常。我也不明白为什么卡方是平方的。

当我看书中的图片时，该图片显示了一个带有卡方标记的右倾斜图（即 $\chi_{0.95}^2 = 4.575$ 和 $\chi_{0.05}^2 = 19.675$ ），我得到的印象是我正在看类似的东西 $z$ 分数。这些卡方是什么？它们是否代表偏离均值的标准差数量？

我也在math.stackexchange 部分问过这个问题，但我没有收到任何人的回复。

2个回答

方差不是正态分布的，因为方差是每个数据与分布均值的平方偏差的平均值。如果数据集中的所有数据点都相同，则偏差均为零，平方偏差及其平均值也为零。因此， $0$ 是可能的最低方差。另一方面，正态分布范围为 $-\infty$ 至 $\infty$ . 因此，方差不能服从正态分布。

卡方分布与 $z$ -分数。一个 $z$ -score 是标准正态分布的分位数。也就是说，它是来自具有均值的正态分布的数据点的值 $0$ 和方差 $1$ （例如，如果分布首先被标准化）。的分布 $z$ - 已平方的分数是 $\chi^2_\text{df=1}$ . 为了更全面地理解这种联系，让我们检查方差的公式：

s^{2} = \frac{\sum_{i = 1}^{N} (x_{i} - \bar{x})^{2}}{N - 1}

$s^2 = \frac{\sum_{i=1}^N(x_i-\bar x)^2}{N-1}$ 如果你把两边都乘以

(N - 1)

$(N-1)$ （如在你的顶部不等式中间的分子中），那么你只是有一个平方和。平方偏差的总和分布为 chi-squared。换句话说，平方已经存在于

s^{2} (N - 1)

$s^2(N-1)$ ，因此您需要一个可以解决此问题的分布。（此时要回答您的一个具体问题，这不是某事物与您的平均值的标准偏差数。）

现在如果你想要一个双面 $1-\alpha$ 任何东西的置信区间（包括这个作为特例），你会找到对应于 $\alpha/2$ 百分位和 $1-\alpha/2$ 百分位。在这种情况下，您可以为适当的卡方分布执行此操作，该分布是卡方的（因为这些是如上所述的平方偏差之和） $\text{df} = N-1$ . 然后按照第二组不等式中的描述对该值进行缩放。（至于我们如何从第一组到第二组，这只是代数。）

卡方分布确实与正态分布有关。具体来说，具有 N 个自由度的卡方变量等价于 N 平方独立标准正态随机变量之和的分布，这与来自正常总体的 N 平方独立 Z 分数之和相同。

因此，要回答您的第一个问题，不。样本方差不是正态分布的。至于你关于为什么它的卡方的第二个问题......我不知道，但如果一个随机标准正态变量由 X 表示，那么 $X^2$ 是自由度为 1 的卡方分布。至少对我来说，我一直认为卡方符号看起来像 $X^2$ ，所以这是我对这个问题的唯一输入。

至于解释：由于卡方是独立标准法线的平方和，它本质上是 N 个预测/估计的平方误差之和的分布。

其它你可能感兴趣的问题

上一篇具有高度多重共线性和异常值的非常小的数据的回归下一篇呈现具有可变系统参数的数值结果