机器算法验证 - 为什么 t 统计量随着样本量的增加而增加？ - 吾爱随笔录

为什么 t 统计量随着样本量的增加而增加？

机器算法验证 t检验 p 值

2022-03-21 23:55:45

我有一个关于阅读 t 检验 p 值的问题。如果我理解正确，则 t 统计量计算为：

$t = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}$

其中，是样本均值，是总体均值，是样本标准差，是样本大小。自由度为。 $\bar{X}$ $\mu$ $\sigma$ $n$ $n-1$

）成反比。较高会导致较小的标准误差，从而产生较高的 t 值。较高的 t 值意味着较低的 p 值，推断样本均值 ( ) 和总体均值 ( ) 之间的差异是显着的（因此我们拒绝原假设）。 $\sigma / \sqrt{n}$ $n$ $\bar{X}$ $\mu$

但是这个公式对我来说似乎违反直觉，因为更大的样本量（更高的）应该使样本均值更接近总体均值。 $n$

我们如何解释这一点？

3个回答

符号的一点改变可能有助于回答您的问题：您所说通常称为，因为它是原假设下的总体均值，而是实际总体均值 - 这是未知的，因为我们不知道原假设是否为真。此外，您所说通常称为，遵循总体参数获取希腊字母的约定，样本参数用拉丁字母表示。 $\mu$ $\mu_{0}$ $\mu$ $\sigma$ $s$

请注意，是平均值可变性的估计，其中被理解为随机变量。所以我们有 $s / \sqrt{n}$ $\bar{X}$ $\bar{X}$ $\bar{X}$

$t = \frac{\bar{X} - \mu_{0}}{s / \sqrt{n}}$

现在，对于给定的样本，您有一个固定的经验，因此有一个固定的差异。部分混淆似乎与“更大的样本量（更高的）应该使样本均值更接近总体均值”的想法有关。这应该改写为以零假设为真（）为条件，观察到差异的概率至少与增加时，已经观察到变得更小。的“准确度” $\bar{X}_{emp}$ $d_{emp} = \bar{X}_{emp} - \mu_{0}$ $n$ $\mu = \mu_{0}$ $d = \bar{X} - \mu_{0}$ $d_{emp}$ $n$ $\bar{X}$ 然后增加（变异性减小）。

我想主要的一点是你已经有一个固定的和因此，而只是告诉你“差异有多大”以（估计的）可变性单位来衡量。当单位的绝对数量变小时，相同的绝对差将“值得更多单位”，因此如果 . $\bar{X}_{emp}$ $d_{emp}$ $t$ $\bar{X}$ $d_{emp}$ $\mu = \mu_{0}$

其他人可能会给出更严格的答案，但是：

和之间的任何给定（固定）差异，如果 n 很高，则差异更有意义。 $\bar{X}$ $\mu$

增加 n将导致样本均值更接近总体均值，但前提是您的样本与总体没有差异。所以当 n 很高并且仍然不同于时，这加强了对原假设的拒绝。 $\bar{X}$ $\mu$

你的最后一句话似乎概括了混乱。

你写了

但是这个公式对我来说似乎违反直觉，因为更大的样本量（更高的 n）应该使样本均值更接近总体均值。

但只有当样本来自与被比较的总体具有相同均值的总体时，这才是正确的。“人口”一词被用来指代两个不同的人口

其它你可能感兴趣的问题

上一篇如何在BUGS中指定贝叶斯混合效应模型下一篇多元回归事后检验中是否对系数进行 t 检验？