机器算法验证 - 非参数测试究竟完成了什么？你如何处理结果？ - 吾爱随笔录

非参数测试究竟完成了什么？你如何处理结果？

机器算法验证假设检验非参数 wilcoxon-mann-whitney 检验

2022-02-14 18:09:07

我有一种感觉，这可能已在其他地方被问过，但并不是我需要的基本描述类型。我知道非参数依赖于中位数而不是平均值来比较……一些东西。我也相信它依赖于“自由度”（？）而不是标准偏差。不过，如果我错了，请纠正我。

我已经做了很好的研究，或者我想，试图理解这个概念，它背后的工作原理，测试结果的真正含义，和/或如何处理测试结果；然而，似乎没有人涉足该领域。

为了简单起见，让我们坚持使用 Mann-Whitney U-test，我注意到它非常流行（而且似乎也被滥用和过度使用，以迫使一个人的“方形模型进入圆孔”）。如果您也想描述其他测试，请随意，尽管我觉得一旦我理解了一个，我就可以以类似于各种 t 检验等的方式理解其他测试。

假设我用我的数据运行了一个非参数测试，我得到了这个结果：

2 Sample Mann-Whitney - Customer Type       

Test Information        
H0: Median Difference = 0       
Ha: Median Difference ≠ 0       

Size of Customer    Large   Small
Count                    45    55
Median                    2     2

Mann-Whitney Statistic: 2162.00 
p-value (2-sided, adjusted for ties):   0.4156

我熟悉其他方法，但这里有什么不同？我们是否应该希望 p 值低于 0.05？“曼-惠特尼统计”是什么意思？它有什么用吗？这里的信息是否只是验证或不验证我拥有的特定数据源应该或不应该使用？

我在回归和基础方面有相当多的经验，但我对这种“特殊”的非参数东西非常好奇——我知道它会有自己的缺点。

想象一下我是五年级的学生，看看你能不能给我解释一下。

4个回答

我知道非参数依赖于中位数而不是平均值

在这个意义上，几乎没有任何非参数检验实际上“依赖”中位数。我只能想到一对……而我希望你可能听说过的唯一一个就是符号测试。

比较……某事。

如果他们依靠中位数，大概是比较中位数。但是——尽管许多消息来源试图告诉你——像符号秩检验、Wilcoxon-Mann-Whitney 或 Kruskal-Wallis 这样的检验根本不是真正的中位数检验；如果您做出一些额外的假设，您可以将 Wilcoxon-Mann-Whitney 和 Kruskal-Wallis 视为中位数检验，但在相同的假设下（只要存在分布均值），您同样可以将它们视为均值检验.

与 Signed Rank 检验相关的实际位置估计是样本内成对平均值的中位数（超过对，包括自对），Wilcoxon-Mann-Whitney 的中位数是跨样本的成对差异。 $\frac12 n(n+1)$

我也相信它依赖于“自由度？” 而不是标准差。如果我错了，请纠正我。

大多数非参数检验没有卡方检验或 F 检验的 t 检验所具有的特定意义上的“自由度”（每个检验都与估计的自由度数有关方差），尽管许多分布随样本大小而变化，您可能会认为这有点类似于自由度，因为表格随样本大小而变化。样本当然保留了它们的属性并在这个意义上具有 n 个自由度，但测试统计量分布的自由度通常不是我们关心的问题。有可能你有一些更像自由度的东西——例如，你当然可以提出一个论点，即 Kruskal-Wallis 确实具有与卡方基本相同的自由度，但它

可以在这里找到关于自由度的一个很好的讨论/

我已经做了很好的研究，或者我想，试图理解这个概念，它背后的工作原理，测试结果的真正含义，和/或什至如何处理测试结果；然而，似乎没有人冒险进入该领域。

我不确定你的意思。

我可以推荐一些书，比如 Conover 的Practical Nonparametric Statistics，如果你能得到它，Neave 和 Worthington 的书（无分布测试），但还有很多其他的 - Marascuilo & McSweeney、Hollander & Wolfe 或 Daniel 的书。我建议你至少阅读 3 或 4 本书最适合你的书，最好是那些尽可能以不同方式解释事物的书（这意味着至少阅读 6 或 7 本书中的一小部分，以找到适合的 3 本书）。

为了简单起见，让我们坚持使用 Mann Whitney U 测试，我注意到它非常流行

是的，这让我对你的说法“似乎没有人冒险进入那个地区”感到困惑——许多使用这些测试的人确实“进入了你所说的那个地区”。

- 并且似乎被滥用和过度使用

我想说非参数测试通常没有得到充分利用（包括 Wilcoxon-Mann-Whitney）——尤其是排列/随机化测试，尽管我不一定会质疑它们经常被滥用（但参数测试也是如此，即使更是如此）。

假设我用我的数据运行了一个非参数测试，我得到了这个结果：

[剪断...]

我熟悉其他方法，但这里有什么不同？

你指的还有哪些其他方法？你要我拿这个比什么？

编辑：你稍后提到回归；我假设您熟悉两个样本的 t 检验（因为它确实是回归的一个特例）。

在普通双样本 t 检验的假设下，零假设具有两个总体相同，而另一种情况是其中一个分布发生了变化。如果你看下面的 Wilcoxon-Mann-Whitney 的两组假设中的第一个，那里正在测试的基本内容几乎是相同的；只是 t 检验是基于假设样本来自相同的正态分布（除了可能的位置偏移）。如果原假设为真，并且伴随的假设为真，则检验统计量具有 t 分布。如果备择假设为真，则检验统计量更有可能采用看起来与原假设不一致但确实与备择假设一致的值——我们关注最不寻常的，

这种情况与 Wilcoxon-Mann-Whitney 非常相似，但它测量与零点的偏差略有不同。事实上，当 t 检验的假设为真*时，它几乎与最好的检验（即 t 检验）一样好。

*（实际上从来没有，尽管这并不像听起来那么严重）

wmw 在 null 和 Alternative 下

实际上，可以将 Wilcoxon-Mann-Whitney 视为对数据等级执行的有效“t 检验”——尽管它没有 t 分布；该统计量是在数据等级上计算的双样本 t 统计量的单调函数，因此它在样本空间上引发相同的排序**（即等级上的“t 检验” - 适当地执行 -将产生与 Wilcoxon-Mann-Whitney 相同的 p 值），因此它拒绝完全相同的情况。

**（严格来说，部分排序，但让我们把它放在一边）

[你会认为仅仅使用排名会丢弃很多信息，但是当数据来自具有相同方差的正常人群时，几乎所有关于位置偏移的信息都在排名模式中。实际数据值（取决于它们的等级）添加很少的额外信息。如果你比正常情况更重，不久之后，Wilcoxon-Mann-Whitney 检验就会具有更好的功效，并保持其名义显着性水平，因此排名之上的“额外”信息最终不仅会变得无信息，而且在某些意义，误导。然而，近对称重尾是一种罕见的情况。您在实践中经常看到的是偏度。]

基本思想非常相似，p 值具有相同的解释（如果原假设为真，则结果的概率或更极端）——一直到位置偏移的解释，如果你做出必要的假设（请参阅本文末尾附近对假设的讨论）。

如果我对 t 检验进行与上图中相同的模拟，则这些图看起来非常相似 - x 轴和 y 轴上的比例看起来不同，但基本外观会相似。

我们是否应该希望 p 值低于 0.05？

你不应该在那里“想要”任何东西。这个想法是找出样本是否比偶然解释的更不同（在位置意义上），而不是“希望”特定的结果。

如果我说“你能去看看 Raj 的车是什么颜色吗？”，如果我想对它进行公正的评估，我不想让你说“伙计，我真的，真的希望它是蓝色的！它必须是蓝色的”。最好只是看看情况如何，而不是带着一些“我需要它成为某种东西”。

如果您选择的显着性水平为 0.05，那么当 p 值 ≤ 0.05 时，您将拒绝原假设。但是，当您有足够大的样本量以几乎总是检测到相关的效应量时，未能拒绝至少同样有趣，因为它表明存在的任何差异都很小。

“曼·惠特利”数字是什么意思？

Mann-Whitney统计量。

只有与零假设为真时它可以采用的值分布相比，它才真正有意义（参见上图），这取决于任何特定程序可能使用的几个特定定义中的哪一个。

它有什么用吗？

通常你并不关心确切的值本身，而是它在零分布中的位置（无论它或多或少是你应该在零假设为真时看到的值的典型值，还是它是否更极端）

（编辑：在进行此类测试时，您可以获得或计算出一些直接信息量 - 就像下面讨论的位置偏移或一样，实际上您可以相当直接地从统计数据中计算出第二个，但是仅统计数据不是一个非常有用的数字） $P(X<Y)$

这里的数据是否只是验证或不验证我拥有的特定数据源应该或不应该使用？

该测试没有说明“我应该或不应该使用的特定数据源”。

请参阅下面我对查看 WMW 假设的两种方式的讨论。

我在回归和基础知识方面有相当多的经验，但对这种“特殊”非参数的东西非常好奇

非参数检验没有什么特别之处（我想说“标准”检验在许多方面甚至比典型的参数检验更基础）——只要你真正理解假设检验。

然而，这可能是另一个问题的主题。

有两种主要方法可以查看 Wilcoxon-Mann-Whitney 假设检验。

i）一种是说“我对位置偏移感兴趣——也就是说，在零假设下，两个群体具有相同的（连续）分布，而不是一个相对于其他”

如果你做出这个假设，Wilcoxon-Mann-Whitney 工作得很好（你的替代方案只是位置转移）

在这种情况下，Wilcoxon-Mann-Whitney 实际上是对中位数的检验……但同样，它是对均值或任何其他位置等变量统计量的检验（例如，第 90 个百分位数，或修剪后的均值，或任何数量的其他东西），因为它们都受到位置转移的相同影响。

这样做的好处是它很容易解释——而且很容易为这个位置偏移生成一个置信区间。

位置转移

但是，Wilcoxon-Mann-Whitney 检验对位置偏移以外的其他类型的差异很敏感。

ii) 另一种是采取完全通用的方法。您可以将此描述为对来自群体 1 的随机值小于来自群体 2 的随机值的概率的测试（实际上，如果您'是如此倾斜; Mann&Whitney 公式在 U 统计量方面计算样本中一个超过另一个的次数，你只需要规模来实现概率的估计）；空值是总体概率是，而不是它不同于的替代方案。 $\frac{1}{2}$ $\frac{1}{2}$

P(X<Y) 从 1/2 偏移

然而，虽然它在这种情况下可以正常工作，但该测试是在零下可交换性假设的基础上制定的。除其他外，这将要求在空情况下两个分布相同。如果我们没有，而是处于与上图所示略有不同的情况，我们通常不会进行显着性水平的测试。在图示的情况下，它可能会低一些。 $\alpha$

因此，虽然它在某种意义上“有效”，即当 H0 为真时它倾向于不拒绝，而当 H) 为假时倾向于拒绝更多，但您希望分布在 null 下非常接近相同，或者测试不表现我们期望的方式。

假设你和我正在执教田径队。我们的运动员来自同一所学校，年龄相似，性别相同（即，他们来自同一人群），但我声称发现了一个革命性的新训练系统，它可以让我的团队成员跑得比你的。我怎样才能让你相信它确实有效？

我们有一场比赛。

之后，我坐下来计算我团队成员的平均时间和你团队成员的平均时间。如果我的运动员的平均时间不仅比你的平均时间快，而且与我们结果的“分散”或标准偏差相比，差异也很大，我就会宣布胜利。

这本质上是一个 [ -test][1]。我们假设数据来自具有特定参数的分布，在这种情况下是平均值和标准差。该测试估计这些参数并比较其中一个（平均值）。因此，它被称为参数测试，因为我们正在比较这些参数。

t

$t$

“但是马特，”你抱怨道，“这不太公平。我们的球队非常相似，但你——由于纯粹的机会——最终成为了该地区跑得最快的人。他和每个人都不在同一个联盟否则；他几乎是大自然的怪胎。他比下一个最快的完成者早了 3 分钟，这大大减少了你的平均时间，但其余的竞争对手混合得相当均匀。让我们看看完成顺序。如果你的方法确实有效，较早的完成者应该大多来自您的团队，但如果不是，则完成顺序应该是相当随机的。这不会给您的超级巨星带来过多的重视！”

这种方法本质上是 [Mann-Whitney U 检验][2]（也称为 Wilcoxon 秩和检验、Manning-Whitney-Wilcoxon 检验以及除此之外的其他几种排列！）。请注意，与检验不同，我们没有假设数据来自特定分布，也没有为它们计算任何参数。相反，我们直接比较数据点的相对等级。 $t$

这是主要区别——参数测试用分布建模事物并比较这些分布的参数；非参数测试....不要更直接地对数据进行操作。与参数检验一样，也构造了非参数检验统计量，以使值在原假设下均匀分布在 [0,1] 上，并在存在效应时向 0 聚集。您将像参数测试的结果一样报告和解释它们。 $p$

我不确定参数和非参数方法的相对流行程度。一些非参数方法（例如，直方图！）几乎普遍使用。其他人可能被过度使用或使用不足。我怀疑 Mann-Whitney U 检验应该更多地使用，而不是更少使用。它与对正态分布数据检验一样有效，并且实际上比对足够非正态数据它对异常值也相当稳健。另外，您也可以在序数数据上使用它（例如，完成顺序而不仅仅是完成时间），这使得它比检验更广泛地适用。 $t$ $t$ $t$

如果错了，您要求更正。以下是该标题下的一些评论，以补充@Peter Flom 的积极建议。

“非参数依赖于中位数而不是平均值”：通常在实践中，但这不是一个定义。一些非参数检验（例如卡方）与中位数无关。
依赖自由度而不是标准偏差；这很困惑。自由度的概念绝不是标准偏差的替代品。自由度作为一个想法适用于统计数据。
“我应该或不应该使用的特定数据源”：这个问题与您应用的显着性检验无关，这只是关于数据子集之间的差异，并且用中位数之间的差异来表达。

您从此处的 p 值“想要”与在任何其他测试中想要的相同的东西。

U 统计量是计算的结果，就像 t 统计量、优势比、F 统计量或您所拥有的一样。这个公式可以在很多地方找到。这不是很直观，但是在您习惯它们之前，其他测试统计数据也不是（我们认为 2 的值在显着范围内，因为我们一直都能看到它们）。

块文本中的其余输出应该是清晰的。

对于非参数测试的更一般介绍，我回应 @NickCox .... 买一本好书。非参数简单的意思是“没有参数”；有许多用于各种目的的非参数检验和统计。

其它你可能感兴趣的问题

上一篇执行多元回归时是否删除统计软件标记为异常值的案例？下一篇虚构数据的最佳术语？