如何在小样本中选择 t 检验或非参数检验,例如 Wilcoxon

机器算法验证 假设检验 t检验 非参数 小样本 wilcoxon-mann-whitney 检验
2022-01-28 14:05:38

某些假设可以使用学生t检验(可能使用韦尔奇对两样本情况下的不等方差的校正)或通过非参数检验(如 Wilcoxon 配对符号秩检验、Wilcoxon-Mann-Whitney U 检验)进行检验,或配对符号测试。我们如何才能就哪种测试最合适做出原则性决定,尤其是在样本量“小”的情况下?

许多介绍性教科书和讲义提供了一种“流程图”方法,在这种方法中检查正态性(通过正态性检验,或更广泛地通过QQ 图或类似方法)来决定是t检验还是非参数检验。对于未配对的双样本t检验,可能会进一步检查方差的同质性,以决定是否应用 Welch 校正。这种方法的一个问题是应用哪种测试的决定取决于观察到的数据,以及这如何影响所选测试的性能(功率、I 类错误率)。

另一个问题是在小型数据集中检查正态性有多难:正式测试的功效较低,因此很可能无法检测到违规行为,但类似的问题适用于在 QQ 图上观察数据。即使是严重的违规行为也可能未被发现,例如,如果分布是混合的,但没有从混合物的一个成分中得出任何观察结果。与大的不同,我们不能依赖中心极限定理的安全网,以及检验统计量和t分布的渐近正态性。n

对此的一个原则性回应是“安全第一”:无法可靠地验证小样本中的正态性假设,坚持使用非参数方法。另一个是考虑假设正态性的任何理由,理论上(例如,变量是几个随机分量的总和,CLT 适用)或经验上(例如,以前的较大的研究表明变量是正常的),并且仅在存在此类理由时才使用t检验. 但这通常只能证明近似正态性是合理的,并且在低自由度的情况下,很难判断它需要多接近正态才能避免t检验无效。n

大多数选择 t 检验或非参数检验的指南都关注正态性问题。但小样本也引发了一些附带问题:

  • 如果执行“不相关样本”或“未配对”t 检验,是否使用 Welch 校正有些人使用方差相等的假设检验,但在这里它的功效很低;其他人检查 SD 是否“合理”关闭(通过各种标准)。除非有充分的理由相信总体方差相等,否则始终对小样本使用 Welch 校正是否更安全?

  • 如果您将方法的选择视为功率和鲁棒性之间的权衡,那么关于非参数方法的渐近效率的说法是没有帮助的“如果数据确实正常, Wilcoxon 检验的能力约为 t 检验的 95%,如果数据不正常,则通常更强大,所以只使用 Wilcoxon”这样的经验法则有时会被听到,但是如果 95% 仅适用于大 ,那么对于较小的样本,这是有缺陷的推理。n

  • 小样本可能使评估转换是否适合数据变得非常困难或不可能,因为很难判断转换后的数据是否属于(充分)正态分布。因此,如果 QQ 图显示非常正偏的数据,在记录日志后看起来更合理,那么对记录的数据使用 t 检验是否安全?在较大的样本上,这将非常诱人,但是对于较小的,我可能会推迟,除非有理由首先期望对数正态分布。n

  • 检查非参数的假设怎么样? 一些消息来源建议在应用 Wilcoxon 检验之前验证对称分布(将其视为位置检验而不是随机优势),这会带来与检查正态性类似的问题。如果我们首先应用非参数检验的原因是盲目服从“安全第一”的口号,那么从小样本评估偏度的困难显然会导致我们使用配对符号检验的低功效.

考虑到这些小样本问题,在决定t检验和非参数检验时,是否有一个好的(希望是可引用的)程序来解决?

有几个很好的答案,但考虑到排名测试的其他替代方法(例如排列测试)的响应也将受到欢迎。

4个回答

我将更改有关问题的顺序。

我发现教科书和讲义经常不一致,并且希望系统能够通过可以安全地推荐为最佳实践的选择来工作,尤其是可以引用的教科书或论文。

不幸的是,书籍等中对这个问题的一些讨论依赖于公认的智慧。有时,公认的智慧是合理的,有时则不那么合理(至少从某种意义上说,当一个更大的问题被忽略时,它往往会关注一个较小的问题);我们应该仔细检查为建议提供的理由(如果有任何理由)。

大多数选择 t 检验或非参数检验的指南都关注正态性问题。

这是真的,但由于我在这个答案中提到的几个原因,它有点被误导了。

如果执行“不相关样本”或“未配对”t 检验,是否使用 Welch 校正?

这(除非你有理由认为方差应该相等,否则使用它)是许多参考资料的建议。我在这个答案中指出了一些。

有些人使用方差相等的假设检验,但在这里它的功效很低。一般来说,我只是观察样本 SD 是否“合理”接近(这有点主观,所以必须有一种更原则的方法)但是同样,如果 n 低,很可能总体 SD 更远除了样品。

除非有充分的理由相信总体方差相等,否则始终对小样本使用 Welch 校正是否更安全?这就是建议。测试的属性受到基于假设测试的选择的影响。

可以在此处此处查看有关此内容的一些参考资料,尽管还有更多类似的内容。

等方差问题与正态性问题有许多相似的特征——人们想要测试它,建议根据测试结果调整测试选择会对两种后续测试的结果产生不利影响——最好不要假设什么您无法充分证明(通过对数据进行推理,使用与相同变量相关的其他研究的信息等)。

但是,也有区别。一个是——至少就零假设下的检验统计量的分布而言(因此,它的水平稳健性)——非正态性在大样本中不太重要(至少在显着性水平方面,尽管权力可能如果您需要找到小的影响仍然是一个问题),而在等方差假设下不等方差的影响并不会随着大样本量而消失。

当样本量“小”时,可以推荐什么原则方法来选择最合适的测试?

对于假设检验,重要的是(在某些条件下)主要是两件事:

  • 实际的 I 类错误率是多少?

  • 权力行为是什么样的?

我们还需要记住,如果我们比较两个过程,改变第一个会改变第二个(也就是说,如果它们不是在相同的实际显着性水平上进行的,你会期望更高的与更高的功率)。α

(当然,我们通常不太自信知道我们正在处理什么分布,因此这些行为对环境变化的敏感性也很重要。)

考虑到这些小样本问题,在决定 t 检验和非参数检验时,是否有一个很好的(希望可引用的)清单来工作?

我将考虑一些我将提出一些建议的情况,同时考虑非正态性和不等方差的可能性。在每种情况下,都提到 t 检验来暗示 Welch 检验:

  • n 中型

非正态(或未知),可能具有接近相等的方差:

如果分布是重尾分布,则通常使用 Mann-Whitney 会更好,但如果它只是稍微重一些,则 t 检验应该没问题。对于轻尾,可能(通常)首选 t 检验。排列测试是一个不错的选择(如果您愿意,甚至可以使用 t 统计量进行排列测试)。引导测试也适用。

非正态(或未知)、不等方差(或方差关系未知):

如果分布是重尾分布,通常使用 Mann-Whitney 会更好

  • 如果方差不等式仅与均值不等式有关 - 即如果 H0 为真,则差价的差异也应该不存在。GLM 通常是一个不错的选择,特别是如果存在偏度且散布与均值相关时。置换测试是另一种选择,与基于等级的测试有类似的警告。引导测试在这里是一个很好的可能性。

Zimmerman 和 Zumbo (1993)建议对等级进行 Welch-t 检验,他们认为在方差不相等的情况下,该检验比 Wilcoxon-Mann-Whitney 表现更好。[1]

  • n 适度小

如果您期望非正态性,排名测试在这里是合理的默认值(再次带有上述警告)。如果您有关于形状或方差的外部信息,您可能会考虑 GLM。如果您预计事情不会与正常情况相差太远,则 t 检验可能没问题。

  • n 非常小

由于获得合适的显着性水平存在问题,置换检验和等级检验都可能不适合,并且在最小的尺寸下,t 检验可能是最佳选择(有一些可能稍微加强它)。但是,对于小样本使用较高的 I 类错误率有一个很好的论据(否则,您会在保持 I 类错误率不变的情况下让 II 类错误率膨胀)。另见 de Winter (2013)[2]

当分布严重偏斜且非常离散时,必须对建议进行一些修改,例如李克特量表项目,其中大多数观察结果都属于最终类别之一。那么 Wilcoxon-Mann-Whitney 不一定是比 t 检验更好的选择。

当您掌握有关可能情况的一些信息时,模拟可以帮助您进一步指导选择。

我很欣赏这是一个长期存在的话题,但大多数问题都涉及提问者的特定数据集,有时是关于权力的更一般性讨论,有时如果两个测试不同意该怎么办,但我想要一个程序来选择正确的测试第一名!

主要问题是在小数据集中检查正态性假设有多难:

在小数据集中很难检查态性,在某种程度上这是一个重要的问题,但我认为还有另一个重要的问题需要我们考虑。一个基本问题是,尝试将正态性评估为在测试之间进行选择的基础会对您选择的测试的属性产生不利影响。

任何正式的正常测试都将具有低功率,因此很可能无法检测到违规行为。(我个人不会为此目的进行测试,而且我显然并不孤单,但是当客户要求进行正态性测试时,我发现这种用处不大,因为那是他们的教科书或旧讲义或他们曾经找到的某个网站声明应该完成。这是欢迎看起来更重的引用的一点。)

这是一个明确的参考示例(还有其他参考)(Fay 和 Proschan,2010):[3]

t 和 WMW DR 之间的选择不应基于正态性检验。

他们同样明确表示不检验方差的相等性。

更糟糕的是,将中心极限定理用作安全网是不安全的:对于小的 n,我们不能依赖检验统计量和 t 分布的方便的渐近正态性。

即使在大样本中,分子的渐近正态性也不意味着 t 统计量将具有 t 分布。但是,这可能并不重要,因为您仍然应该具有渐近正态性(例如,分子的 CLT 和斯卢茨基定理表明,如果两者的条件都成立,则 t 统计量最终应该开始看起来正常。)

对此的一个原则性回应是“安全第一”:由于无法可靠地验证小样本的正态性假设,因此请运行等效的非参数测试。

这实际上是我提到的参考文献(或提到的链接)给出的建议。

我见过但感觉不太舒服的另一种方法是进行视觉检查,如果没有观察到任何不良情况,则继续进行 t 检验(“没有理由拒绝正态性”,忽略此检查的低功效)。我个人的倾向是考虑是否有任何理由假设正态性,理论上的(例如变量是几个随机分量的总和并且适用 CLT)或经验性的(例如,以前的较大 n 的研究表明变量是正常的)。

这两个都是很好的论据,尤其是当 t 检验对于适度偏离正态性的情况下相当稳健的事实作为支持时。(但是,应该记住,“中度偏差”是一个棘手的短语;某些与正态性的偏差可能会相当大地影响 t 检验的功效性能,即使这些偏差在视觉上非常小 - t-测试对某些偏差的鲁棒性不如其他。每当我们讨论与正态性的小偏差时,我们都应该牢记这一点。)

但是请注意,措辞“建议变量是正常的”。合理地与常态保持一致与常态不同。我们通常可以拒绝实际的正态性,甚至不需要查看数据——例如,如果数据不能为负,则分布不可能是正态的。幸运的是,重要的是我们可能从以前的研究或对数据如何组成的推理中实际得到的更接近,即与正态性的偏差应该很小。

如果是这样,如果数据通过目视检查,我将使用 t 检验,否则坚持使用非参数。但是任何理论或经验依据通常只能证明假设近似正态性是合理的,并且在低自由度的情况下,很难判断它需要多接近正态才能避免使 t 检验失效。

嗯,这是我们可以相当容易地评估其影响的东西(例如通过模拟,正如我之前提到的)。据我所见,偏斜似乎比重尾更重要(但另一方面,我也看到了一些相反的说法——尽管我不知道那是基于什么)。

对于那些将方法的选择视为功率和鲁棒性之间的权衡的人来说,关于非参数方法的渐近效率的说法是没有帮助的。例如,“如果数据确实正常,Wilcoxon 检验的能力约为 t 检验的 95%,如果数据不正常,则通常更强大,所以只使用 Wilcoxon”的经验法则有时是听说过,但如果 95% 仅适用于大 n,那么对于较小的样本,这是有缺陷的推理。

但是我们可以很容易地检查小样本的功效!很容易模拟以获得此处的功率曲线。
(同样,参见 de Winter (2013))。[2]

在各种情况下进行了这样的模拟,对于双样本和单样本/配对差分情况,两种情况下正常的小样本效率似乎都比渐近效率低一点,但效率即使在非常小的样本量下,有符号秩和 Wilcoxon-Mann-Whitney 检验仍然非常高。

至少如果测试是在相同的实际显着性水平上进行的;您不能对非常小的样本进行 5% 的测试(例如,至少在没有随机测试的情况下),但是如果您准备(比如说)进行 5.5% 或 3.2% 的测试,那么排名测试与该显着性水平的 t 检验相比,确实保持得很好。

小样本可能使评估转换是否适合数据变得非常困难或不可能,因为很难判断转换后的数据是否属于(充分)正态分布。因此,如果 QQ 图显示非常正偏的数据,在记录日志后看起来更合理,那么对记录的数据使用 t 检验是否安全?在较大的样本上,这将非常诱人,但是对于较小的 n,我可能会推迟,除非有理由首先期望对数正态分布。

还有另一种选择:做出不同的参数假设。例如,如果有偏斜的数据,例如,在某些情况下,可以合理地考虑伽马分布或其他偏斜族作为更好的近似值——在中等大的样本中,我们可能只使用 GLM,但在非常小的样本中可能有必要进行小样本测试 - 在许多情况下,模拟可能很有用。

备选方案 2:稳健化 t 检验(但要注意稳健程序的选择,以免严重离散化检验统计量的结果分布) - 这与非常小样本的非参数程序相比具有一些优势,例如能力考虑具有低 I 类错误率的测试。

在这里,我正在考虑在 t 统计量中使用位置的 M 估计量(以及相关的规模估计量)来平滑地增强对正态性偏差的鲁棒性。类似于 Welch 的东西,例如:

xySp

其中等分别是位置和规模的稳健估计。Sp2=sx2nx+sy2nyxsx

我的目标是减少统计数据的任何离散趋势 - 所以我会避免修剪和 Winsorizing 之类的事情,因为如果原始数据是离散的,修剪等会加剧这种情况;通过使用具有平滑函数的 M 估计类型方法,您可以获得类似的效果,而不会影响离散性。请记住,我们正在尝试处理确实非常小的情况(例如,在每个样本中大约 3-5),因此即使是 M 估计也可能存在问题。ψn

例如,您可以在正常情况下使用模拟来获得 p 值(如果样本量非常小,我建议过度引导 - 如果样本量不是那么小,那么精心实施的引导程序可能会做得很好,但我们不妨回到 Wilcoxon-Mann-Whitney)。有一个比例因子和一个 df 调整来达到我想象的合理的 t 近似值。这意味着我们应该得到我们所寻求的非常接近法线的属性,并且应该在法线的广泛范围内具有合理的鲁棒性。有许多问题超出了当前问题的范围,但我认为在非常小的样本中,收益应该超过成本和所需的额外努力。

[我已经很长时间没有阅读有关这方面的文献了,所以我没有合适的参考资料来提供这方面的资料。]

当然,如果您不期望分布有点像正态,而是与其他分布相似,您可以对不同的参数测试进行适当的稳健化。

如果您想检查非参数的假设怎么办?一些消息来源建议在应用 Wilcoxon 检验之前验证对称分布,这会带来与检查正态性类似的问题。

确实。我假设您的意思是签名等级测试*。在对配对数据使用它的情况下,如果您准备假设这两个分布除了位置偏移之外是相同的形状,那么您是安全的,因为差异应该是对称的。实际上,我们甚至不需要那么多;为了使测试正常工作,您需要在 null 下对称;在替代方案下不需要它(例如,考虑在正半线上具有相同形状的右偏连续分布的配对情况,其中比例在替代方案下不同但在零下没有;签名秩检验应该基本上按预期工作这种情况)。如果替代方案是位置偏移,则测试的解释更容易。

*(Wilcoxon 的名字与一样本秩检验和二样本秩检验有关——有符号秩检验和秩和;通过他们的 U 检验,Mann 和 Whitney 概括了 Wilcoxon 研究的情况,并介绍了评估零分布的重要新思想,但Wilcoxon-Mann-Whitney 的两组作者之间的优先级显然是 Wilcoxon 的——所以至少如果我们只考虑 Wilcoxon vs Mann&Whitney,Wilcoxon 在我的书中排在第一位。然而,似乎Stigler 定律再次击败了我,Wilcoxon也许应该与一些早期的贡献者分享一些优先权,并且(除了曼恩和惠特尼)应该与等效测试的几个发现者分享荣誉。[4][5])

参考

[1]:Zimmerman DW 和 Zumbo BN,(1993 年),
Rank 转换和非正常人群的学生 t 检验和 Welch t' 检验的功效,
加拿大杂志实验心理学,47:523-39。

[2]:JCF de Winter (2013),
“使用极小样本的学生 t 检验”,
实用评估、研究和评估, 8 月18 :10,ISSN 1531-7714
http://pareonline.net/ getvn.asp?v=18&n=10

[3]:Michael P. Fay 和 Michael A. Proschan (2010),
“Wilcoxon-Mann-Whitney 还是 t 检验?关于假设检验的假设和决策规则的多种解释,”
Stat Surv4:1-39。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]:Berry, KJ, Mielke, PW 和 Johnston, JE (2012),
“两样本秩和检验:早期发展”
,概率与统计历史电子期刊,第 8 卷,12 月
pdf

[5]:Kruskal, WH (1957),
“关于 Wilcoxon 非配对双样本检验的历史记录”
,美国统计协会杂志52,356-360

在我看来,原则性方法认识到(1)正态性测试和图形评估灵敏度不足,图形解释通常不客观,(2)多步骤程序具有不确定的操作特性,(3)许多非参数测试具有出色的操作特性在参数检验具有最佳功效的情况下,并且 (4)的适当变换通常不是恒等函数,并且非参数Yk- 样本检验对于所选择的转换是不变的(对于单样本检验,例如 Wilcoxon 符号秩检验,情况并非如此)。关于(2),多步骤程序在药物开发等领域尤其成问题,因为 FDA 等监督机构理所当然地担心可能操纵结果。例如,如果较低,那么不道德的研究人员可能会方便地忘记报告正态性检验。tP

将所有这些放在一起,一些建议的指导如下:

  1. 如果在检查数据之前没有令人信服的理由假设高斯分布,并且不需要协变量调整,请使用非参数检验。
  2. 如果需要协变量调整,请使用您喜欢的秩检验的半参数回归泛化。对于 Wilcoxon 检验,这是比例优势模型,对于正态分数检验,这是概率序数回归。

这些建议是相当笼统的,尽管您的里程可能会因某些小样本量而异。但是我们知道,对于较大的样本,Wilcoxon 2 样本检验和有符号秩检验与检验相比的相对效率(如果在 2 样本情况下方差相等)是和当高斯分布不成立时,秩检验的相对效率通常远大于 1.0。对我来说,与可能的收益、稳健性和不必指定的转换的自由相比,使用等级测试的信息损失非常小。t3πY

即使不满足最优性假设,非参数测试也能很好地执行。对于样本问题,秩检验不对给定组的分布做任何假设;如果您要求测试是最优的,他们只会对个组的分布如何相互连接做出假设。对于链接累积概率序数模型,假设分布具有比例风险。对于logit链接累积概率模型(比例赔率模型),假设分布通过比例赔率假设连接,即累积分布函数的logit是平行的。其中一种分布的形状是无关紧要的。详情可在kklogloghttp://biostat.mc.vanderbilt.edu/CourseBios330在讲义的第 15 章。

频繁考虑的统计方法有两种类型的假设。第一个是使方法保留第一类错误所需的假设。第二个涉及保留 II 型错误(最优性;敏感性)。我相信揭示第二个所需假设的最佳方法是在半参数模型中嵌入非参数测试,如上所述。两者之间的实际联系来自半参数模型产生的 Rao 有效分数测试。来自两个样本案例的比例优势模型的分数测试的分子正是秩和统计量。

Rand Wilcox 在他的出版物和书籍中提出了一些非常重要的观点,其中许多是由 Frank Harrell 和 Glen_b 在早期的帖子中列出的。

  1. 平均值不一定是我们想要推断的数量。可能还有其他数量可以更好地说明典型观察结果。
  2. 对于 t 检验,即使对正态性的微小偏离,功效也可能很低。
  3. 对于 t 检验,观察到的概率覆盖率可能与名义上的不同。

一些关键建议是:

  1. 一个稳健的替代方法是使用 t 检验比较修剪后的均值或 M 估计量。Wilcox 建议使用 20% 的修剪均值。
  2. 经验似然法在理论上更有利(欧文,2001 年),但对于中小 n 不一定如此。
  3. 如果需要控制 I 类错误,但无法获得 CI,则排列测试非常有用。
  4. 对于许多情况,Wilcox 建议使用 bootstrap-t 来比较修剪后的均值。在 R 中,这是在WRS包中的函数yuenbtyhbt中实现的。
  5. 当修剪量> / = 20%时,百分位引导可能比百分位-t更好。在 R 中,这是在上述WRS中的函数pb2gen中实现的。

两个很好的参考文献是 Wilcox ( 2010 ) 和 Wilcox ( 2012 )。

Bradley 在他的著作Distribution-Free Statistical Tests (1968, pp. 17-24)中提出了他所谓的“经典”和“无分布”检验之间的 13 个对比。请注意,布拉德利区分了“非参数”和“无分布”,但就您的问题而言,这种差异无关紧要。这十三个元素不仅与测试的衍生物有关,而且与它们的应用有关。这些包括:

  • 显着性水平的选择:经典检验具有连续的显着性水平;无分布检验通常对显着性水平进行离散观察,因此经典检验在设置所述水平时提供了更大的灵活性。
  • 拒绝区域的逻辑有效性:无分布测试拒绝区域可能不太直观易懂(不一定平滑或连续),并且可能会导致混淆何时应将测试视为拒绝原假设。
  • 可测试的统计类型:直接引用布拉德利的话:“根据观察幅度的算术运算定义的统计可以通过经典技术进行测试,而由顺序关系(等级)或类别频率等定义的统计可以通过以下方式测试无分布方法。均值和方差是前者的例子,后者是中位数和四分位距。 ” 特别是在处理非正态分布时,检验其他统计数据的能力变得很有价值,从而为无分布检验提供了权重.
  • 高阶交互的可测试性:在经典测试下比无分布测试容易得多。
  • 样本量的影响:在我看来,这是一个相当重要的问题。当样本量很小(布拉德利说 n = 10 左右)时,可能很难确定是否违反了经典测试的参数假设。无分布测试没有违反这些假设。此外,即使没有违反假设,无分布测试通常也几乎与测试一样容易应用和效率。因此,对于小样本量(少于 10 个,可能多达 30 个),Bradley 倾向于几乎常规地应用无分布检验。对于大样本量,中心极限定理倾向于压倒参数违规,因为样本均值和样本方差将趋于正态,并且参数测试在效率方面可能更优越。
  • 应用范围:由于是无分布的,与假设特定分布的经典测试相比,此类测试适用于更大的人群类别。
  • 违反连续分布假设的可检测性:在无分布测试中很容易看到(例如存在并列分数),在参数测试中更难看到。
  • 违反连续分布假设的影响:如果违反假设,则测试变得不精确。Bradley 花时间解释了如何为无分布测试估计不精确的界限,但对于经典测试没有类似的例程。