为什么在计算独立样本 t 检验时要引导?(如何证明、解释和报告自举 t 检验)

机器算法验证 置信区间 t检验 引导程序 正态假设 报告
2022-03-22 07:48:27

假设我有两个条件,这两个条件的样本量非常低。假设我在第一个条件下只有 14 个观察值,而在另一个条件下只有 11 个观察值。我想使用 t 检验来测试平均差异是否彼此显着不同。

首先,我对 t 检验的正态性假设有点困惑,这可能就是我没有完全自举的原因。t 检验的假设是 (A) 数据是从正态总体中采样的,还是 (B) 您的样本分布具有高斯特性?如果是(B),那么这不是一个假设,对吧?您可以绘制数据的直方图,看看它是否正常。如果我的样本量很小,我将没有足够的数据点来查看我的样本分布是否正常。

这就是我认为引导的用武之地。我可以引导以查看我的样本是否正常,对吗?起初我认为引导总是会导致正态分布,但事实并非如此(可以使用引导重采样来计算数据集方差的置信区间吗? statexchange statexchange)。所以,你会引导的一个原因是更确定你的样本数据的正态性,对吗?

在这一点上,我变得非常困惑。如果我使用 t.test 函数在 R 中执行 t 检验,并将引导的样本向量作为两个独立样本放入,我的 t 值就会变得非常重要。我不是在做自举t检验吗?我不能,因为所有引导所做的只是使我的 t 值更大,这不会在每种情况下都会发生吗?人们不会对自举样本进行 t 检验吗?

最后,与在我们的原始样本上计算置信区间相比,在 bootstrap 上计算置信区间有什么好处?这些置信区间告诉我原始样本数据的置信区间不告诉我什么?

我想我对(A)如果它只会使我的 t 值更显着,为什么要使用引导程序,(B)不确定在运行独立样本 t 检验时使用引导程序的正确方法,以及(C)不确定如何在独立 t 检验情况下报告自举的理由、执行和结果。

1个回答

您的帖子中有几个误解(其中一些很常见,您可能被告知了错误的事情,因为告诉您的人只是在传递错误信息)。

首先是bootstrap不是小样本的救星。即使在总体正常的情况下,Bootstrap 实际上对于小样本量的公平性也很差。 这个问题,答案和讨论应该对此有所了解。此处的文章还提供了更多详细信息和背景。

t 检验和 bootstrap 均基于抽样分布,即检验统计量的分布是什么。

精确的 t 检验基于理论和生成数据的总体/过程正常的条件。t 检验恰好对正态假设相当稳健(就检验的规模而言,功效和精度可能是另一回事),因此在某些情况下,“足够正常”和“大样本量”的组合意味着抽样分布“足够接近”正态分布,t 检验是一个合理的选择。

bootstrap 不是假设一个正常的总体,而是使用样本 CDF 作为总体的估计,并计算/估计(通常通过模拟)真实的抽样分布(可能是正态的,但不需要如此)。如果样本可以合理地代表总体,则引导程序运行良好。但是对于小样本量,样本很容易在代表总体方面做得很差,并且在这些情况下,引导方法做得很糟糕(参见上面引用的模拟和论文)。

t 检验的优点是,如果所有假设都成立(或接近),那么它运行良好(我认为它实际上是统一最强大的检验)。缺点是,如果假设不正确(并且不接近正确),它就不能很好地工作,并且在某些情况下,假设的差异比其他情况更大。并且 t 检验理论不适用于某些感兴趣的参数/统计数据,例如修剪均值、标准差、分位数等。

bootstrap 的优点是它可以在没有参数方法所需的许多假设的情况下估计采样分布。它适用于除均值之外的统计数据以及其他假设不成立的情况(例如,2 个样本,不等方差)。bootstrap 的缺点是它非常依赖于代表总体的样本,因为它没有其他假设的优点。bootstrap 不给你正态性,它给你抽样分布(有时看起来很正常,但在不正常时仍然有效),而不需要关于人口的假设。

对于可以合理地假设总体正常(或至少足够正常)的 t 检验,那么 t 检验将是最好的(在 2 中)。

如果您没有正态性并且确实有小样本,那么 t-test 或 bootstrap 都不应该被信任。对于 2 个样本情况,如果您愿意在原假设下假设分布相等(包括方差相等),则置换检验将很有效。在进行随机实验时这是一个非常合理的假设,但在比较 2 个不同的群体时可能不是这样(但如果您认为 2 个群体可能具有不同的分布/形状,那么平均值检验可能不是最有趣的问题,或者最好的起点)。

对于巨大的样本量,大样本理论将有利于 t 检验和自举,并且在比较均值时您会看到很少或没有差异。

在样本量适中的情况下,bootstrap 可以很好地执行,并且当您不愿意做出 t 检验程序所需的假设时,它可能是首选。

重要的是要了解您正在考虑的不同程序所需的假设和条件,并考虑这些条件和与它们的偏差将如何影响您的分析,以及您如何相信产生数据的总体/过程符合这些条件,模拟可以帮助您了解偏差如何影响不同的方法。请记住,所有统计程序都有条件和假设(可能除了SnowsCorrectlySizedButOtherwiseUselessTestOfAnything,但如果您使用该测试,那么人们会对您做出假设)。