我无法理解两个引导程序之间的差异,以评估两个样本之间的均值差异。例如,考虑以下场景:
我的目标是比较两国之间的幸福感,Nepal并且Bhutan。我收集了一个样本来自不丹和尼泊尔的幸福指数。每个数据点都是 IID。
程序 1:在保留国家成员资格的同时进行引导
按照本指南(第 4-5 页),程序如下:
- 拟合回归模型使用观察到的样本来估计观察到的差异
- 将来自尼泊尔和不丹的公民汇集到一个总体人口中,保持他们的国家成员身份
- 用替换绘制来自组合总体的样本,并将回归模型拟合到这个自举样本
- 重复步骤 2生成分布的时间价值观
- 使用自举分布计算 p 值和置信区间
程序 2:从没有国家成员资格的总体样本中抽取
在我参加的先前概率课程中的这些讲义(幻灯片 28-32)之后,程序是:
- 计算观察到的均值差异
- 将来自两国的所有公民集中到一个群体中,忽略国家成员资格
- 用替换绘制 自举的尼泊尔群体的总人口中的公民
- 用替换绘制自举的不丹群体的总人口中的公民
- 计算自举的尼泊尔和不丹群体之间的均值差异
- 重复步骤 3-5次
- 使用差异的自举分布计算 p 值和置信区间
可以在程序 2 中更改国家成员资格,以便在引导样本中来自不丹的一些幸福评级似乎来自尼泊尔。这在程序 1 中从未发生过,在该程序中,尼泊尔的所有幸福评级都只归因于尼泊尔。
在程序 2 中“交换”国家成员资格有何影响?从这两个程序计算的置信区间和 p 值是否代表相同的数量?我应该期望这两个过程的结果相同吗?