假设我有两个条件,这两个条件的样本量非常低。假设我在第一个条件下只有 14 个观察值,而在另一个条件下只有 11 个观察值。我想使用 t 检验来测试平均差异是否彼此显着不同。
首先,我对 t 检验的正态性假设有点困惑,这可能就是我没有完全自举的原因。t 检验的假设是 (A) 数据是从正态总体中采样的,还是 (B) 您的样本分布具有高斯特性?如果是(B),那么这不是一个假设,对吧?您可以绘制数据的直方图,看看它是否正常。如果我的样本量很小,我将没有足够的数据点来查看我的样本分布是否正常。
这就是我认为引导的用武之地。我可以引导以查看我的样本是否正常,对吗?起初我认为引导总是会导致正态分布,但事实并非如此(可以使用引导重采样来计算数据集方差的置信区间吗? statexchange statexchange)。所以,你会引导的一个原因是更确定你的样本数据的正态性,对吗?
在这一点上,我变得非常困惑。如果我使用 t.test 函数在 R 中执行 t 检验,并将引导的样本向量作为两个独立样本放入,我的 t 值就会变得非常重要。我不是在做自举t检验吗?我不能,因为所有引导所做的只是使我的 t 值更大,这不会在每种情况下都会发生吗?人们不会对自举样本进行 t 检验吗?
最后,与在我们的原始样本上计算置信区间相比,在 bootstrap 上计算置信区间有什么好处?这些置信区间告诉我原始样本数据的置信区间不告诉我什么?
我想我对(A)如果它只会使我的 t 值更显着,为什么要使用引导程序,(B)不确定在运行独立样本 t 检验时使用引导程序的正确方法,以及(C)不确定如何在独立 t 检验情况下报告自举的理由、执行和结果。