我将更改有关问题的顺序。
我发现教科书和讲义经常不一致,并且希望系统能够通过可以安全地推荐为最佳实践的选择来工作,尤其是可以引用的教科书或论文。
不幸的是,书籍等中对这个问题的一些讨论依赖于公认的智慧。有时,公认的智慧是合理的,有时则不那么合理(至少从某种意义上说,当一个更大的问题被忽略时,它往往会关注一个较小的问题);我们应该仔细检查为建议提供的理由(如果有任何理由)。
大多数选择 t 检验或非参数检验的指南都关注正态性问题。
这是真的,但由于我在这个答案中提到的几个原因,它有点被误导了。
如果执行“不相关样本”或“未配对”t 检验,是否使用 Welch 校正?
这(除非你有理由认为方差应该相等,否则使用它)是许多参考资料的建议。我在这个答案中指出了一些。
有些人使用方差相等的假设检验,但在这里它的功效很低。一般来说,我只是观察样本 SD 是否“合理”接近(这有点主观,所以必须有一种更原则的方法)但是同样,如果 n 低,很可能总体 SD 更远除了样品。
除非有充分的理由相信总体方差相等,否则始终对小样本使用 Welch 校正是否更安全?这就是建议。测试的属性受到基于假设测试的选择的影响。
可以在此处和此处查看有关此内容的一些参考资料,尽管还有更多类似的内容。
等方差问题与正态性问题有许多相似的特征——人们想要测试它,建议根据测试结果调整测试选择会对两种后续测试的结果产生不利影响——最好不要假设什么您无法充分证明(通过对数据进行推理,使用与相同变量相关的其他研究的信息等)。
但是,也有区别。一个是——至少就零假设下的检验统计量的分布而言(因此,它的水平稳健性)——非正态性在大样本中不太重要(至少在显着性水平方面,尽管权力可能如果您需要找到小的影响仍然是一个问题),而在等方差假设下不等方差的影响并不会随着大样本量而消失。
当样本量“小”时,可以推荐什么原则方法来选择最合适的测试?
对于假设检验,重要的是(在某些条件下)主要是两件事:
实际的 I 类错误率是多少?
权力行为是什么样的?
我们还需要记住,如果我们比较两个过程,改变第一个会改变第二个(也就是说,如果它们不是在相同的实际显着性水平上进行的,你会期望更高的与更高的功率)。α
(当然,我们通常不太自信知道我们正在处理什么分布,因此这些行为对环境变化的敏感性也很重要。)
考虑到这些小样本问题,在决定 t 检验和非参数检验时,是否有一个很好的(希望可引用的)清单来工作?
我将考虑一些我将提出一些建议的情况,同时考虑非正态性和不等方差的可能性。在每种情况下,都提到 t 检验来暗示 Welch 检验:
非正态(或未知),可能具有接近相等的方差:
如果分布是重尾分布,则通常使用 Mann-Whitney 会更好,但如果它只是稍微重一些,则 t 检验应该没问题。对于轻尾,可能(通常)首选 t 检验。排列测试是一个不错的选择(如果您愿意,甚至可以使用 t 统计量进行排列测试)。引导测试也适用。
非正态(或未知)、不等方差(或方差关系未知):
如果分布是重尾分布,通常使用 Mann-Whitney 会更好
- 如果方差不等式仅与均值不等式有关 - 即如果 H0 为真,则差价的差异也应该不存在。GLM 通常是一个不错的选择,特别是如果存在偏度且散布与均值相关时。置换测试是另一种选择,与基于等级的测试有类似的警告。引导测试在这里是一个很好的可能性。
Zimmerman 和 Zumbo (1993)建议对等级进行 Welch-t 检验,他们认为在方差不相等的情况下,该检验比 Wilcoxon-Mann-Whitney 表现更好。[1]
如果您期望非正态性,排名测试在这里是合理的默认值(再次带有上述警告)。如果您有关于形状或方差的外部信息,您可能会考虑 GLM。如果您预计事情不会与正常情况相差太远,则 t 检验可能没问题。
由于获得合适的显着性水平存在问题,置换检验和等级检验都可能不适合,并且在最小的尺寸下,t 检验可能是最佳选择(有一些可能稍微加强它)。但是,对于小样本使用较高的 I 类错误率有一个很好的论据(否则,您会在保持 I 类错误率不变的情况下让 II 类错误率膨胀)。另见 de Winter (2013)。[2]
当分布严重偏斜且非常离散时,必须对建议进行一些修改,例如李克特量表项目,其中大多数观察结果都属于最终类别之一。那么 Wilcoxon-Mann-Whitney 不一定是比 t 检验更好的选择。
当您掌握有关可能情况的一些信息时,模拟可以帮助您进一步指导选择。
我很欣赏这是一个长期存在的话题,但大多数问题都涉及提问者的特定数据集,有时是关于权力的更一般性讨论,有时如果两个测试不同意该怎么办,但我想要一个程序来选择正确的测试第一名!
主要问题是在小数据集中检查正态性假设有多难:
在小数据集中很难检查正态性,在某种程度上这是一个重要的问题,但我认为还有另一个重要的问题需要我们考虑。一个基本问题是,尝试将正态性评估为在测试之间进行选择的基础会对您选择的测试的属性产生不利影响。
任何正式的正常测试都将具有低功率,因此很可能无法检测到违规行为。(我个人不会为此目的进行测试,而且我显然并不孤单,但是当客户要求进行正态性测试时,我发现这种用处不大,因为那是他们的教科书或旧讲义或他们曾经找到的某个网站声明应该完成。这是欢迎看起来更重的引用的一点。)
这是一个明确的参考示例(还有其他参考)(Fay 和 Proschan,2010):[3]
t 和 WMW DR 之间的选择不应基于正态性检验。
他们同样明确表示不检验方差的相等性。
更糟糕的是,将中心极限定理用作安全网是不安全的:对于小的 n,我们不能依赖检验统计量和 t 分布的方便的渐近正态性。
即使在大样本中,分子的渐近正态性也不意味着 t 统计量将具有 t 分布。但是,这可能并不重要,因为您仍然应该具有渐近正态性(例如,分子的 CLT 和斯卢茨基定理表明,如果两者的条件都成立,则 t 统计量最终应该开始看起来正常。)
对此的一个原则性回应是“安全第一”:由于无法可靠地验证小样本的正态性假设,因此请运行等效的非参数测试。
这实际上是我提到的参考文献(或提到的链接)给出的建议。
我见过但感觉不太舒服的另一种方法是进行视觉检查,如果没有观察到任何不良情况,则继续进行 t 检验(“没有理由拒绝正态性”,忽略此检查的低功效)。我个人的倾向是考虑是否有任何理由假设正态性,理论上的(例如变量是几个随机分量的总和并且适用 CLT)或经验性的(例如,以前的较大 n 的研究表明变量是正常的)。
这两个都是很好的论据,尤其是当 t 检验对于适度偏离正态性的情况下相当稳健的事实作为支持时。(但是,应该记住,“中度偏差”是一个棘手的短语;某些与正态性的偏差可能会相当大地影响 t 检验的功效性能,即使这些偏差在视觉上非常小 - t-测试对某些偏差的鲁棒性不如其他。每当我们讨论与正态性的小偏差时,我们都应该牢记这一点。)
但是请注意,措辞“建议变量是正常的”。合理地与常态保持一致与常态不同。我们通常可以拒绝实际的正态性,甚至不需要查看数据——例如,如果数据不能为负,则分布不可能是正态的。幸运的是,重要的是我们可能从以前的研究或对数据如何组成的推理中实际得到的更接近,即与正态性的偏差应该很小。
如果是这样,如果数据通过目视检查,我将使用 t 检验,否则坚持使用非参数。但是任何理论或经验依据通常只能证明假设近似正态性是合理的,并且在低自由度的情况下,很难判断它需要多接近正态才能避免使 t 检验失效。
嗯,这是我们可以相当容易地评估其影响的东西(例如通过模拟,正如我之前提到的)。据我所见,偏斜似乎比重尾更重要(但另一方面,我也看到了一些相反的说法——尽管我不知道那是基于什么)。
对于那些将方法的选择视为功率和鲁棒性之间的权衡的人来说,关于非参数方法的渐近效率的说法是没有帮助的。例如,“如果数据确实正常,Wilcoxon 检验的能力约为 t 检验的 95%,如果数据不正常,则通常更强大,所以只使用 Wilcoxon”的经验法则有时是听说过,但如果 95% 仅适用于大 n,那么对于较小的样本,这是有缺陷的推理。
但是我们可以很容易地检查小样本的功效!很容易模拟以获得此处的功率曲线。
(同样,参见 de Winter (2013))。[2]
在各种情况下进行了这样的模拟,对于双样本和单样本/配对差分情况,两种情况下正常的小样本效率似乎都比渐近效率低一点,但效率即使在非常小的样本量下,有符号秩和 Wilcoxon-Mann-Whitney 检验仍然非常高。
至少如果测试是在相同的实际显着性水平上进行的;您不能对非常小的样本进行 5% 的测试(例如,至少在没有随机测试的情况下),但是如果您准备(比如说)进行 5.5% 或 3.2% 的测试,那么排名测试与该显着性水平的 t 检验相比,确实保持得很好。
小样本可能使评估转换是否适合数据变得非常困难或不可能,因为很难判断转换后的数据是否属于(充分)正态分布。因此,如果 QQ 图显示非常正偏的数据,在记录日志后看起来更合理,那么对记录的数据使用 t 检验是否安全?在较大的样本上,这将非常诱人,但是对于较小的 n,我可能会推迟,除非有理由首先期望对数正态分布。
还有另一种选择:做出不同的参数假设。例如,如果有偏斜的数据,例如,在某些情况下,可以合理地考虑伽马分布或其他偏斜族作为更好的近似值——在中等大的样本中,我们可能只使用 GLM,但在非常小的样本中可能有必要进行小样本测试 - 在许多情况下,模拟可能很有用。
备选方案 2:稳健化 t 检验(但要注意稳健程序的选择,以免严重离散化检验统计量的结果分布) - 这与非常小样本的非参数程序相比具有一些优势,例如能力考虑具有低 I 类错误率的测试。
在这里,我正在考虑在 t 统计量中使用位置的 M 估计量(以及相关的规模估计量)来平滑地增强对正态性偏差的鲁棒性。类似于 Welch 的东西,例如:
x∼−y∼S∼p
其中和,等分别是位置和规模的稳健估计。S∼2p=s∼2xnx+s∼2ynyx∼s∼x
我的目标是减少统计数据的任何离散趋势 - 所以我会避免修剪和 Winsorizing 之类的事情,因为如果原始数据是离散的,修剪等会加剧这种情况;通过使用具有平滑函数的 M 估计类型方法,您可以获得类似的效果,而不会影响离散性。请记住,我们正在尝试处理确实非常小的情况(例如,在每个样本中大约 3-5),因此即使是 M 估计也可能存在问题。ψn
例如,您可以在正常情况下使用模拟来获得 p 值(如果样本量非常小,我建议过度引导 - 如果样本量不是那么小,那么精心实施的引导程序可能会做得很好,但我们不妨回到 Wilcoxon-Mann-Whitney)。有一个比例因子和一个 df 调整来达到我想象的合理的 t 近似值。这意味着我们应该得到我们所寻求的非常接近法线的属性,并且应该在法线的广泛范围内具有合理的鲁棒性。有许多问题超出了当前问题的范围,但我认为在非常小的样本中,收益应该超过成本和所需的额外努力。
[我已经很长时间没有阅读有关这方面的文献了,所以我没有合适的参考资料来提供这方面的资料。]
当然,如果您不期望分布有点像正态,而是与其他分布相似,您可以对不同的参数测试进行适当的稳健化。
如果您想检查非参数的假设怎么办?一些消息来源建议在应用 Wilcoxon 检验之前验证对称分布,这会带来与检查正态性类似的问题。
确实。我假设您的意思是签名等级测试*。在对配对数据使用它的情况下,如果您准备假设这两个分布除了位置偏移之外是相同的形状,那么您是安全的,因为差异应该是对称的。实际上,我们甚至不需要那么多;为了使测试正常工作,您需要在 null 下对称;在替代方案下不需要它(例如,考虑在正半线上具有相同形状的右偏连续分布的配对情况,其中比例在替代方案下不同但在零下没有;签名秩检验应该基本上按预期工作这种情况)。如果替代方案是位置偏移,则测试的解释更容易。
*(Wilcoxon 的名字与一样本秩检验和二样本秩检验有关——有符号秩检验和秩和;通过他们的 U 检验,Mann 和 Whitney 概括了 Wilcoxon 研究的情况,并介绍了评估零分布的重要新思想,但Wilcoxon-Mann-Whitney 的两组作者之间的优先级显然是 Wilcoxon 的——所以至少如果我们只考虑 Wilcoxon vs Mann&Whitney,Wilcoxon 在我的书中排在第一位。然而,似乎Stigler 定律再次击败了我,Wilcoxon也许应该与一些早期的贡献者分享一些优先权,并且(除了曼恩和惠特尼)应该与等效测试的几个发现者分享荣誉。[4][5])
参考
[1]:Zimmerman DW 和 Zumbo BN,(1993 年),
Rank 转换和非正常人群的学生 t 检验和 Welch t' 检验的功效,
加拿大杂志实验心理学,47:523-39。
[2]:JCF de Winter (2013),
“使用极小样本的学生 t 检验”,
实用评估、研究和评估, 8 月18 :10,ISSN 1531-7714
http://pareonline.net/ getvn.asp?v=18&n=10
[3]:Michael P. Fay 和 Michael A. Proschan (2010),
“Wilcoxon-Mann-Whitney 还是 t 检验?关于假设检验的假设和决策规则的多种解释,”
Stat Surv;4:1-39。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]:Berry, KJ, Mielke, PW 和 Johnston, JE (2012),
“两样本秩和检验:早期发展”
,概率与统计历史电子期刊,第 8 卷,12 月
pdf
[5]:Kruskal, WH (1957),
“关于 Wilcoxon 非配对双样本检验的历史记录”
,美国统计协会杂志,52,356-360。