许多临床研究基于非随机样本。然而,大多数标准检验(例如 t 检验、ANOVA、线性回归、逻辑回归)都基于样本包含“随机数”的假设。如果这些非随机样本通过标准测试进行分析,结果是否有效?谢谢你。
可以使用标准统计检验分析非随机样本吗?
有两种通用模型可供测试。第一个基于从总体中随机抽样的假设,通常称为“总体模型”。
例如,对于两个独立样本 t 检验,我们假设我们要比较的两组是来自各自总体的随机样本。假设两组内的分数分布在总体中是正态分布的,那么我们可以分析得出检验统计量的抽样分布(即,对于 t 统计量)。这个想法是,如果我们要无限次地重复这个过程(从各自的群体中随机抽取两个样本)(当然,我们实际上并没有这样做),我们将获得测试统计的抽样分布。
另一种测试模型是“随机模型”。在这里,我们不必诉诸随机抽样。相反,我们通过样本的排列获得随机分布。
例如,对于 t 检验,您有两个样本(不一定通过随机抽样获得)。现在,如果这两组之间确实没有区别,那么一个特定的人实际上是“属于”第 1 组还是第 2 组是任意的。因此,我们可以做的是一遍又一遍地排列组分配,每次都注意两组的均值相距多远。这样,我们凭经验获得了一个抽样分布。然后,我们可以比较原始样本中这两个平均值的距离(在我们开始重新调整组成员资格之前),如果这种差异是“极端的”(即,落入经验得出的抽样分布的尾部),那么我们得出结论该组成员资格不是任意的,两个组之间确实存在差异。
在许多情况下,这两种方法实际上会得出相同的结论。在某种程度上,基于人口模型的方法可以看作是随机化测试的近似。有趣的是,Fisher 是提出随机化模型的人,并建议它应该作为我们推断的基础(因为大多数样本不是通过随机抽样获得的)。
一篇很好的文章描述了这两种方法之间的区别:
恩斯特,医学博士(2004 年)。排列方法:精确推理的基础。统计科学,19(4),676-685 (链接)。
另一篇文章提供了很好的总结并建议随机化方法应该是我们推论的基础:
Ludbrook, J. 和 Dudley, H. (1998)。为什么在生物医学研究中置换检验优于 t 和 F 检验。美国统计学家,52(2),127-132 (链接)。
编辑:我还应该补充一点,在使用随机化方法时,通常会计算与总体模型下相同的检验统计量。因此,例如,为了测试两组之间的均值差异,可以计算组成员资格的所有可能排列的常用 t 统计量(在零假设下产生凭经验得出的抽样分布),然后检查极端情况原始组成员的 t 统计量在该分布下。
你的问题很好,但没有一个简单的答案。
您提到的大多数测试都是基于样本是随机样本的假设,因为随机样本很可能代表抽样总体。如果假设无效,那么对结果的任何解释都必须考虑到这一点。当样本不能代表总体时,结果很可能具有误导性。当样本尽管是非随机的但具有代表性时,那么结果将是完全可以的。
问题的下一个层次是询问如何确定非随机性在任何特定情况下是否重要。我不能回答那个;-)
你问了一个非常笼统的问题,所以答案不能适用于所有情况。不过,我可以澄清一下。统计检验通常与观察到的分布与假设分布(所谓的零分布或零假设;或者,在某些情况下,替代分布)有关。样本可能是非随机的,但所进行的测试适用于从样本中获得的某些值。如果该变量可以具有某些随机属性,则将其分布与某些替代分布进行比较。那么重要的是样本的检验统计量是否适用于其他一些感兴趣的人群,以及关于替代分布或零分布的假设是否与其他感兴趣的人群相关。