如何执行引导测试来比较两个样本的均值?

机器算法验证 假设检验 t检验 引导程序
2022-02-13 11:03:20

我有两个严重偏斜的样本,并且正在尝试使用自举来使用 t-statistic 比较它们的平均值。

正确的程序是什么?


我正在使用的过程

当我知道这不是正态分布时,我担心在最后一步使用原始/观察数据的标准误差是否合适。

这是我的步骤:

  • Bootstrap - 随机抽样替换(N = 1000)
  • 计算每个引导程序的 t 统计量以创建 t 分布:
    T(b)=(X¯b1X¯b2)(X¯1X¯2)σxb12/n+σxb22/n
  • 通过获取来估计 t 置信区间α/21α/2t 分布的百分位数
  • 通过以下方式获取置信区间:

    CIL=(X¯1X¯2)T_CIL.SEoriginal
    CIU=(X¯1X¯2)+T_CIU.SEoriginal
    在哪里
    SE=σX12/n+σX22/n

  • 查看置信区间的落点以确定均值是否存在显着差异(即非零)

我还查看了 Wilcoxon 秩和,但由于分布非常严重(例如第 75 == 第 95 个百分位),它没有给出非常合理的结果。出于这个原因,我想进一步探索自举 t 检验。

所以我的问题是:

  1. 这是一个合适的方法吗?
  2. 当我知道观察数据严重偏斜时,是否适合使用观察数据的 SE?

可能的重复:首选哪种方法,自举测试或基于非参数等级的测试?

1个回答

我只会做一个常规的引导测试:

  • 计算数据中的 t 统计量并将其存储
  • 更改数据以使零假设为真。在这种情况下,将第 1 组的平均值减去第 1 组的平均值并加上整体平均值,并对第 2 组执行相同的操作,这样两组中的平均值都将是整体平均值。
  • 从此数据集中获取引导样本,可能大约 20,000 个。
  • 计算每个引导样本中的 t 统计量。如果零假设为真,则这些 t 统计量的分布是偏态数据中 t 统计量的抽样分布的引导估计。
  • 大于或等于您观察到的 t 统计量的 bootstrap t 统计量的比例是您对p-价值。您可以通过查看来做得更好(大于或等于观察到的 t 统计量的引导 t 统计量的数量+1)除以(自举样本的数量+1). 但是,当引导样本的数量很大时,差异会很小。

您可以阅读更多内容:

  • AC Davison 和 DV Hinkley (1997) Bootstrap Methods and their Application的第 4 章。剑桥:剑桥大学出版社。

  • Bradley Efron 和 Robert J. Tibshirani (1993)的第 16 章介绍 Bootstrap博卡拉顿:查普曼和霍尔/CRC。

  • 关于引导假设检验的维基百科条目。