机器算法验证 - 在检验组均值差异时如何直观地理解合并方差估计的公式？ - 吾爱随笔录

在检验组均值差异时如何直观地理解合并方差估计的公式？

机器算法验证方差意思是自由程度

2022-03-26 11:58:01

假设我想比较从两个群体（治疗组和对照组）中选择的样本平均值之间的差异。假设两组都有正态分布的观察。那么

Z = \frac{({\bar{X}}_{t} - {\bar{X}}_{c}) - (μ_{t} - μ_{c})}{\sqrt{(\frac{σ_{t}^{2}}{n_{t}} + \frac{σ_{c}^{2}}{n_{c}})}}

$Z = \frac{(\bar{X}_{t}- \bar{X}_{c})-(\mu_{t}-\mu_{c})}{\sqrt{\left(\frac{\sigma^{2}_{t}}{n_t}+ \frac{\sigma^{2}_{c}}{n_c} \right)}}$

假设和是未知的，但可以假设等于。为什么的等于其中和是治疗组和对照组的样本估计值。我知道这与自由度有关。但我永远无法真正“理解”它的定义。 $\sigma_{t}^{2}$ $\sigma_{c}^{2}$ $\sigma^2$ $S_{p}^{2}$ $\sigma^2$

S_{p}^{2} = \frac{S_{t}^{2} (n_{t} - 1) + S_{c}^{2} (n_{c} - 1)}{[n_{t} + n_{c} - 2]}

$S_{p}^{2} = \frac{S_{t}^{2}(n_{t}-1)+ S_{c}^{2}(n_{c}-1)}{[n_t+n_c-2]}$

S_{t}^{2}

$S_{t}^2$

S_{c}^{2}

$S_{c}^2$

简而言之，我们如何获得汇总估计以及直观的自由度是多少？

2个回答

这里真的有两个问题，一个是关于池化的，一个是关于自由度的。

我们先来看看自由度。为了得到这个概念，考虑如果我们知道那么可以是我们想要的任何东西，而可以是我们想要的任何东西，但是一旦我们设置了这 2，就只能是一个值，所以我们有2个自由度。当我们计算时，如果我们从每个中减去总体平均值，然后平方和求和，那么我们将除以，取平均平方差。但是我们通常不知道总体均值，因此我们减去样本均值作为总体均值的估计值。但是减去从我们用来查找 $x+y+z=10$ $x$ $y$ $z$ $S^2$ $x_i$ $n$ $S^2$ 保证最小的平方和，所以它往往太小。但是，如果我们除以，那么它是无偏的，因为我们已经考虑到我们已经使用相同的数据来计算一条信息（平均值只是总和除以一个常数）。在回归模型中，自由度等于减去我们估计的参数数量。每次您估计一个参数（均值、截距、斜率）时，您都会花费 1 个自由度。 $n-1$ $n$

对于池化方差函数，和已经除以和，所以乘法只是给出平方和，然后我们将两个平方和相加并除以总度数自由度（我们减去 2，因为我们估计了 2 个样本均值来获得平方和）。合并方差只是 2 个方差的加权平均值。 $S^2_c$ $S^2_t$ $n_c-1$ $n_t-1$

合并方差是两个独立无偏估计量的加权平均值：和。为什么这些权重以及与自由度的关系是什么？这些权重使得加权平均值是无偏的。 $S^2_c$ $S^2_t$

自由度——

会计版本：由于您要对平均值的差异求和，而平均值的总和总是为零，因此知道个将揭示最后一个。这表明您实际上只有独立随机变量。 $n-1$ $n-1$
几何版本：数据可以正交分解为两个分量：均值和与均值的距离。平均向量跨越一维线性空间。它是正交补码，因此应该是维度为的线性空间。因此，自由度可以看作（并且应该！）作为的维度，即与平均值的距离所在的线性空间。 $n-1$ $(x_i-\bar x)_{i=1}^n$

其它你可能感兴趣的问题

上一篇时间趋势之间的差异下一篇R中发生的内部相关性（突发性？）