为什么几个(如果不是全部)参数假设检验假设随机抽样?

机器算法验证 假设检验 采样 随机性
2022-03-25 22:58:55

Z、t 和其他几个测试假设数据是基于随机抽样的。为什么?

假设我正在做实验研究,我更关心内部有效性而不是外部有效性。所以,如果我的样本可能有点偏颇,好吧,因为我已经接受不为整个人群推断假设。而且分组仍然是随机的,即,为了方便起见,我会选择样本参与者,但我会将他们随机分配到不同的组中。

为什么我不能忽略这个假设?

3个回答

如果您没有针对比实际样本更广泛的群体做出任何推断,那么首先就没有应用统计检验,也就不会出现“偏差”问题。在这种情况下,您只需计算已知样本的描述性统计数据。同样,在这种情况下不存在模型“有效性”的问题——您只是观察变量并记录它们的值,以及这些值的各个方面的描述。

一旦你决定超越你的样本,对更大的群体进行推断,那么你将需要统计数据,并且你需要考虑抽样偏差等问题。在这个应用程序中,随机抽样成为一个有用的属性,有助于获得可靠更广泛的利益集团的推论。如果您没有随机抽样(并且您不知道基于总体的样本概率),那么就很难/不可能对总体做出可靠的推断。

在真正的科学研究中,很少有来自真正随机抽样的数据。数据几乎总是方便样本。这主要影响您可以推广到的人群。也就是说,即使它们是一个方便的样本,它们确实来自某个地方,你只需要清楚它所暗示的位置和限制。如果你真的相信你的数据不能代表任何东西,那么你的研究在任何层面上都不值得,但这可能不是真的1因此,将您的样本视为从某个地方抽取并使用这些标准测试通常是合理的,至少在对冲或合格的意义上。

然而,有一种不同的测试哲学认为我们应该远离那些假设和依赖它们的测试。图基是这方面的倡导者。相反,大多数实验研究被认为(内部)有效,因为研究单位(例如,患者)被随机分配到各组。鉴于此,您可以使用permutation tests,这主要只是假设随机化已正确完成。对此过分担心的反驳是置换测试通常会显示与相应的经典测试相同的内容,并且需要执行更多的工作。同样,标准测试可能是可以接受的。

1.有关这些方面的更多信息,请在此处阅读我的答案可能会有所帮助:确定研究中的总体和样本

Z、t 和其他几个测试基于相关统计数据的已知抽样分布。通常使用的那些抽样分布是为从随机样本计算的统计量定义的。

有时可能为非随机抽样设计一个相关的抽样分布,但一般来说这可能是不可能的。