如果我们不再生活在一个计算机速度很慢并且对任何非参数的东西进行引导/进行置换测试的成本太高的时代,我们为什么还要关心假设检验的力量?
如果我可以引导/置换假设检验,功率分析是否无关紧要?
我们可以通过自举使“样本量”无限大,因此自举会增加功率吗?
如果我们不再生活在一个计算机速度很慢并且对任何非参数的东西进行引导/进行置换测试的成本太高的时代,我们为什么还要关心假设检验的力量?
如果我可以引导/置换假设检验,功率分析是否无关紧要?
我们可以通过自举使“样本量”无限大,因此自举会增加功率吗?
您拥有的与假设相关的信息量只是原始数据中的信息。
重新采样该信息,无论是引导、置换测试还是任何其他重新采样,都无法添加不存在的信息。
bootstrapping 的要点是估计某个数量的抽样分布,本质上是通过使用样本 cdf 作为从中提取它的总体 cdf 的近似值。
正如通常所理解的那样,每个引导样本的大小与原始样本的大小相同(因为采用更大的样本不会告诉您在您拥有的样本大小下的抽样变异性)。不同的是这种引导重采样的数量。
增加引导样本的数量可以使该近似值更加“准确”,但它不会添加任何不存在的信息。
通过引导测试,您可以减少 p 值计算中的模拟误差,但您不能改变您正在逼近的基础 p 值(这只是样本的函数);你对它的估计只是不那么嘈杂。
例如,假设我进行了自举单样本 t 检验(使用单边替代方案),并查看当我们增加自举样本数量时会发生什么:
非常接近 2 的蓝线显示了我们样本的 t 统计量,我们看到它异常高(两种情况下的估计 p 值相似,但该 p 值的估计标准误差约为 30%第二个)
一个质量相似的图片——相同底层分布形状的噪声版本和噪声版本更低——也将来自于对某些统计数据的排列分布进行采样。
我们看到信息没有改变;统计数据的自举分布的基本形状是相同的,只是我们对它的噪音略小一些(因此对 p 值的估计噪音略小一些)。
--
使用引导或置换测试进行功效分析有点棘手,因为您必须指定在测试中不需要假设的事物,例如总体的特定分布形状。您可以在某些特定的分布假设下评估功率。大概您并没有特别好的想法是什么分布,或者您已经能够使用该信息来帮助构建测试(例如,从对反映您所了解的分布具有良好功效的东西开始)它,然后也许在某种程度上加强它)。当然,您可以根据情况调查各种可能的候选分布和各种替代序列。