我想了解为什么参数测试比它们的非参数替代品更强大。“功率”一词的选择与统计功率相同吗?据我了解,功率仅与获得正确拒绝错误/不正确零假设的 p 值的可能性有关,但我不明白这与基于正态分布的统计检验有何关系。
为什么参数测试比非参数测试更强大?
这个答案主要是要拒绝问题中的前提。我会发表评论,要求重新表述问题,以免依赖这些前提,但它太长了,所以我想这是一个答案。
为什么参数测试比非参数测试更强大?
作为一般性陈述,标题前提是错误的。参数检验通常并不比非参数检验更强大。有些书提出了这样的一般性声明,但除非我们非常具体地说明哪些参数测试和哪些非参数测试在哪些参数假设下,否则它是没有意义的,并且我们发现实际上只有在我们具体选择参数测试的情况下它通常才是正确的相对于任何其他检验具有最高的功效——即便如此,在非常大的样本(效应量较小)中,通常可能存在具有等效功效的非参数检验。
“功率”一词的选择与统计功率相同吗?
是的。但是,要计算能力,我们需要指定一组精确的假设和特定的替代方案。
我不明白这与基于正态分布的统计测试有何关系。
术语“参数”或“非参数”与正态分布没有任何关系。
请参阅此处的开头段落:
https://en.wikipedia.org/wiki/Parametric_statistics
参数统计是统计的一个分支,它假设样本数据来自可以通过具有固定参数集的概率分布充分建模的总体。相反,在对数据建模时,非参数模型不假定分布的显式(有限参数)数学形式。但是,它可能会对该分布做出一些假设,例如连续性或对称性。
一些教科书(特别是为某些应用领域的学生编写的教科书,通常由这些领域的学者编写)对这个定义的理解是完全错误的。谨防; 以我的经验,如果这个术语被滥用,很多其他的东西也往往是错误的。
我们可以做出一个真实的陈述来表达你的问题吗?是的,但它需要大量的资格。
如果我们在某个特定的分布假设下使用统一最强大的检验(如果存在这样的检验),并且该分布假设完全正确,并且所有其他假设都成立,那么非参数检验不会超过该功效(否则参数检验毕竟不会是最强大的)。然而 - 尽管堆叠甲板有利于像这样的参数测试 - 在许多情况下,您可以找到一个在堆叠甲板情况下具有相同大样本能力的非参数测试 - 它只是不会是其中之一您可能以前见过的常见的基于等级的测试。
我们正在做的是在参数情况下选择一个测试统计量,该统计量具有统计中关于与零值差异的所有信息,给定分布假设和替代的特定形式。如果您在某些假设下优化功率,显然您无法在这些假设下击败它,这就是我们所处的情况。
Conover 的书Practical Nonparametric Statistics有一节讨论渐近相对效率 (ARE) 为 1 的测试,相对于假设正态性的测试。这是在正常假设下。他在那里专注于正常分数测试(基于分数的排名测试,由于其他原因,我倾向于在大多数典型情况下避免),但这确实有助于说明参数测试声称的优势可能并不总是那么清楚。这是我倾向于关注的下一部分(关于排列测试,在“Fisher 随机化方法”下)。无论如何,这种有利于参数假设的甲板堆叠仍然不能普遍击败非参数测试。
当然,在真实世界的测试情况下,这种整齐的“堆叠甲板”是不会发生的。参数模型不是关于我们真实数据的事实,而是一个模型——一种方便的近似。正如 George Box 所说,所有模型都是错误的。
在这种情况下,我们想问的问题是(a)“在参数假设成立的情况下,是否有一个非参数检验本质上与这个参数检验一样强大?” (答案通常是'是')和(b)“在它不如一些合适的非参数测试强大之前,我们需要在多大程度上修改精确的参数假设?” (这通常是“几乎没有”)。在那种情况下,如果您不知道您处于两种情况中的哪一种,您为什么更喜欢参数检验呢?
让我谈谈一个常见的测试。考虑两样本等方差 t 检验,当总体完全正常时,它对于均值偏移的单边检验一致是最有效的。
(a) 它是否比所有非参数检验都更强大?
好吧,不,从某种意义上说,存在渐近相对效率为 1 的非参数检验(也就是说,如果您查看在给定显着性水平上达到相同功效所需的样本大小的比率,该比率在很大程度上变为 1样品);具体而言,具有此属性的置换测试(例如,基于相同的统计数据)。渐近功效也是典型样本量下相对功效的一个很好的指导(如果您确保测试是在相同的实际显着性水平上执行的)。
(b) 在某些非参数检验具有更好的功效之前,您是否需要对情况进行大量修改?
正如我上面所建议的,在正常情况下的这个位置测试中,几乎没有。即使我们将考虑仅限于最常用的等级检验(这限制了我们的潜在能力),在 Wilcoxon-Mann-Whitney 检验通常具有之前,您不需要使分布比正常分布更重尾更好的力量。如果允许我们在正常情况下选择具有更好功率的东西(尽管 Wilcoxon-Mann-Whitney 在那里有出色的性能),它可以更快地启动。
很难判断你是否从一个尾巴比你假设的稍微重一点的人群中抽样,所以在你不能自信持有的情况下拥有稍微更好的力量(充其量)可能是一个非常可疑的优势.
在任何情况下,您都不应该通过查看您进行测试的样本来判断您所处的情况(至少不会影响您选择的测试),因为基于数据的测试选择会影响您随后选择的测试的属性。
您在参数模型正确的假设下应用参数检验。这总是极大地限制了您正在考虑的一系列可能性。因此权力。
考虑一个参数引导,您可以将所有可能的分布限制为一组特定的分布,例如正态分布。因此,您只需使用两个参数查看高斯分布,而不是无限集所有可能的分布。自然,您可以提出的测试将更加清晰。
请记住,力量来自假设,不幸的是,假设通常是错误的。如果你的假设是错误的,那么权力就会蒸发。这里没有免费的午餐
在某些情况下,参数方法可能比非参数方法更强大,但并非普遍如此。即使在最有利于参数化方法的情况下,功率优势也往往很小甚至微不足道。
当参数方法在能力上具有优势时,它来自两件事中的一个或两个:统计模型中的更多信息(例如,了解总体的分布类型可以更有效地使用样本估计);从数据中提取的更多信息(例如,在适当的时候,使用实际数字比使用排名更能提供信息)。
重要的是要知道,当统计模型假设无效时,参数方法可能比精心选择的非参数方法具有更少的功效。