我现在正在学习随机化测试。我想到了两个问题:
是的,如何通过随机化测试计算 p 值既简单又直观(我认为这与置换测试相同?)。但是,我们如何才能像正常参数测试一样生成 95% 的置信区间?
当我阅读华盛顿大学关于置换测试的文件时,第 13 页上有一句话说:
使用 1000 次排列 ....,p = 0.05 附近的不确定性约为 。
我想知道我们是如何得到这种不确定性的。
我现在正在学习随机化测试。我想到了两个问题:
是的,如何通过随机化测试计算 p 值既简单又直观(我认为这与置换测试相同?)。但是,我们如何才能像正常参数测试一样生成 95% 的置信区间?
当我阅读华盛顿大学关于置换测试的文件时,第 13 页上有一句话说:
使用 1000 次排列 ....,p = 0.05 附近的不确定性约为 。
我想知道我们是如何得到这种不确定性的。
但是,我们如何才能像正常参数测试一样生成 95% 的置信区间?
这是您可以从重采样测试中生成区间的一种方法,尽管将其视为置信区间并不总是合适的。举一个具体的例子,对两个样本的均值差异进行检验。考虑将第二个样本移动(可以是正数或负数)。然后,将导致在水平值可以用作均值差异的名义上置信区间。
一些作者(例如 [1],p364 et seq,[2])称以这种方式构造的区间(参数值未被测试拒绝)称为协和区间——这是一个比置信区间更好的名称(尽管许多人只是忽略了差异;例如,我相信 Cox 和 Hinkley 将这些置信区间称为置信区间),因为该方法不一定给出具有所需覆盖范围的区间(在许多情况下可以看到它应该);该名称传达了有关区间确实告诉您的信息(与数据一致的值区间)。
Gelman 在此讨论了为什么有时普遍考虑置信区间会产生问题。
但是,在特定的假设集(通过模拟)下探索覆盖范围并不难,并且不乏将引导间隔称为“置信区间”的人(即使它们有时被认为与声称的覆盖范围完全不同)。
在 [3] 中讨论了如何在两个样本均值差异情况下执行此操作的更多详细信息,其中它们被称为随机置信区间,并且在那里提出了关于它们何时准确的声明(我没有声明t试图评估)。
对于 1000 个排列 ....,p = 0.05 附近的不确定性约为 ±1%。
我想知道我们是如何得到这种不确定性的?
估计的 p 值是一个直二项式比例。具有相同的标准误差。
因此,如果且,则观察到的比例的标准误差约为。 CI 将是\ [或者,每边大约有个标准误差,这对应于基础 p 值略高于的置信区间]
所以至少在粗略的意义上,你可以说不确定性是“大约 1%”
--
[1] Kempthorne and Folks (1971),
概率、统计和数据分析,
爱荷华州立大学出版社
[2] LaMotte LR 和 Volaufová J,(1999 年),
“通过协和区间预测区间”,
皇家统计学会杂志。系列 D(统计学家),卷。48,第 3 期,第 419-424 页
[3] Ernst, MD (2004),
“排列方法:精确推断的基础”,
统计科学,卷。19 号 4 号 676–685