我知道非参数依赖于中位数而不是平均值
在这个意义上,几乎没有任何非参数检验实际上“依赖”中位数。我只能想到一对……而我希望你可能听说过的唯一一个就是符号测试。
比较……某事。
如果他们依靠中位数,大概是比较中位数。但是——尽管许多消息来源试图告诉你——像符号秩检验、Wilcoxon-Mann-Whitney 或 Kruskal-Wallis 这样的检验根本不是真正的中位数检验;如果您做出一些额外的假设,您可以将 Wilcoxon-Mann-Whitney 和 Kruskal-Wallis 视为中位数检验,但在相同的假设下(只要存在分布均值),您同样可以将它们视为均值检验.
与 Signed Rank 检验相关的实际位置估计是样本内成对平均值的中位数(超过对,包括自对),Wilcoxon-Mann-Whitney 的中位数是跨样本的成对差异。12n(n+1)
我也相信它依赖于“自由度?” 而不是标准差。如果我错了,请纠正我。
大多数非参数检验没有卡方检验或 F 检验的 t 检验所具有的特定意义上的“自由度”(每个检验都与估计的自由度数有关方差),尽管许多分布随样本大小而变化,您可能会认为这有点类似于自由度,因为表格随样本大小而变化。样本当然保留了它们的属性并在这个意义上具有 n 个自由度,但测试统计量分布的自由度通常不是我们关心的问题。有可能你有一些更像自由度的东西——例如,你当然可以提出一个论点,即 Kruskal-Wallis 确实具有与卡方基本相同的自由度,但它
可以在这里找到关于自由度的一个很好的讨论/
我已经做了很好的研究,或者我想,试图理解这个概念,它背后的工作原理,测试结果的真正含义,和/或什至如何处理测试结果;然而,似乎没有人冒险进入该领域。
我不确定你的意思。
我可以推荐一些书,比如 Conover 的Practical Nonparametric Statistics,如果你能得到它,Neave 和 Worthington 的书(无分布测试),但还有很多其他的 - Marascuilo & McSweeney、Hollander & Wolfe 或 Daniel 的书。我建议你至少阅读 3 或 4 本书最适合你的书,最好是那些尽可能以不同方式解释事物的书(这意味着至少阅读 6 或 7 本书中的一小部分,以找到适合的 3 本书)。
为了简单起见,让我们坚持使用 Mann Whitney U 测试,我注意到它非常流行
是的,这让我对你的说法“似乎没有人冒险进入那个地区”感到困惑——许多使用这些测试的人确实“进入了你所说的那个地区”。
- 并且似乎被滥用和过度使用
我想说非参数测试通常没有得到充分利用(包括 Wilcoxon-Mann-Whitney)——尤其是排列/随机化测试,尽管我不一定会质疑它们经常被滥用(但参数测试也是如此,即使更是如此)。
假设我用我的数据运行了一个非参数测试,我得到了这个结果:
[剪断...]
我熟悉其他方法,但这里有什么不同?
你指的还有哪些其他方法?你要我拿这个比什么?
编辑:你稍后提到回归;我假设您熟悉两个样本的 t 检验(因为它确实是回归的一个特例)。
在普通双样本 t 检验的假设下,零假设具有两个总体相同,而另一种情况是其中一个分布发生了变化。如果你看下面的 Wilcoxon-Mann-Whitney 的两组假设中的第一个,那里正在测试的基本内容几乎是相同的;只是 t 检验是基于假设样本来自相同的正态分布(除了可能的位置偏移)。如果原假设为真,并且伴随的假设为真,则检验统计量具有 t 分布。如果备择假设为真,则检验统计量更有可能采用看起来与原假设不一致但确实与备择假设一致的值——我们关注最不寻常的,
这种情况与 Wilcoxon-Mann-Whitney 非常相似,但它测量与零点的偏差略有不同。事实上,当 t 检验的假设为真*时,它几乎与最好的检验(即 t 检验)一样好。
*(实际上从来没有,尽管这并不像听起来那么严重)

实际上,可以将 Wilcoxon-Mann-Whitney 视为对数据等级执行的有效“t 检验”——尽管它没有 t 分布;该统计量是在数据等级上计算的双样本 t 统计量的单调函数,因此它在样本空间上引发相同的排序**(即等级上的“t 检验” - 适当地执行 -将产生与 Wilcoxon-Mann-Whitney 相同的 p 值),因此它拒绝完全相同的情况。
**(严格来说,部分排序,但让我们把它放在一边)
[你会认为仅仅使用排名会丢弃很多信息,但是当数据来自具有相同方差的正常人群时,几乎所有关于位置偏移的信息都在排名模式中。实际数据值(取决于它们的等级)添加很少的额外信息。如果你比正常情况更重,不久之后,Wilcoxon-Mann-Whitney 检验就会具有更好的功效,并保持其名义显着性水平,因此排名之上的“额外”信息最终不仅会变得无信息,而且在某些意义,误导。然而,近对称重尾是一种罕见的情况。您在实践中经常看到的是偏度。]
基本思想非常相似,p 值具有相同的解释(如果原假设为真,则结果的概率或更极端)——一直到位置偏移的解释,如果你做出必要的假设(请参阅本文末尾附近对假设的讨论)。
如果我对 t 检验进行与上图中相同的模拟,则这些图看起来非常相似 - x 轴和 y 轴上的比例看起来不同,但基本外观会相似。
我们是否应该希望 p 值低于 0.05?
你不应该在那里“想要”任何东西。这个想法是找出样本是否比偶然解释的更不同(在位置意义上),而不是“希望”特定的结果。
如果我说“你能去看看 Raj 的车是什么颜色吗?”,如果我想对它进行公正的评估,我不想让你说“伙计,我真的,真的希望它是蓝色的!它必须是蓝色的”。最好只是看看情况如何,而不是带着一些“我需要它成为某种东西”。
如果您选择的显着性水平为 0.05,那么当 p 值 ≤ 0.05 时,您将拒绝原假设。但是,当您有足够大的样本量以几乎总是检测到相关的效应量时,未能拒绝至少同样有趣,因为它表明存在的任何差异都很小。
“曼·惠特利”数字是什么意思?
Mann-Whitney统计量。
只有与零假设为真时它可以采用的值分布相比,它才真正有意义(参见上图),这取决于任何特定程序可能使用的几个特定定义中的哪一个。
它有什么用吗?
通常你并不关心确切的值本身,而是它在零分布中的位置(无论它或多或少是你应该在零假设为真时看到的值的典型值,还是它是否更极端)
(编辑:在进行此类测试时,您可以获得或计算出一些直接信息量 - 就像下面讨论的位置偏移或一样,实际上您可以相当直接地从统计数据中计算出第二个,但是仅统计数据不是一个非常有用的数字)P(X<Y)
这里的数据是否只是验证或不验证我拥有的特定数据源应该或不应该使用?
该测试没有说明“我应该或不应该使用的特定数据源”。
请参阅下面我对查看 WMW 假设的两种方式的讨论。
我在回归和基础知识方面有相当多的经验,但对这种“特殊”非参数的东西非常好奇
非参数检验没有什么特别之处(我想说“标准”检验在许多方面甚至比典型的参数检验更基础)——只要你真正理解假设检验。
然而,这可能是另一个问题的主题。
有两种主要方法可以查看 Wilcoxon-Mann-Whitney 假设检验。
i)一种是说“我对位置偏移感兴趣——也就是说,在零假设下,两个群体具有相同的(连续)分布,而不是一个相对于其他”
如果你做出这个假设,Wilcoxon-Mann-Whitney 工作得很好(你的替代方案只是位置转移)
在这种情况下,Wilcoxon-Mann-Whitney 实际上是对中位数的检验……但同样,它是对均值或任何其他位置等变量统计量的检验(例如,第 90 个百分位数,或修剪后的均值,或任何数量的其他东西),因为它们都受到位置转移的相同影响。
这样做的好处是它很容易解释——而且很容易为这个位置偏移生成一个置信区间。

但是,Wilcoxon-Mann-Whitney 检验对位置偏移以外的其他类型的差异很敏感。
ii) 另一种是采取完全通用的方法。您可以将此描述为对来自群体 1 的随机值小于来自群体 2 的随机值的概率的测试(实际上,如果您'是如此倾斜; Mann&Whitney 公式在 U 统计量方面计算样本中一个超过另一个的次数,你只需要规模来实现概率的估计);空值是总体概率是,而不是它不同于的替代方案。1212

然而,虽然它在这种情况下可以正常工作,但该测试是在零下可交换性假设的基础上制定的。除其他外,这将要求在空情况下两个分布相同。如果我们没有,而是处于与上图所示略有不同的情况,我们通常不会进行显着性水平的测试。在图示的情况下,它可能会低一些。α
因此,虽然它在某种意义上“有效”,即当 H0 为真时它倾向于不拒绝,而当 H) 为假时倾向于拒绝更多,但您希望分布在 null 下非常接近相同,或者测试不表现我们期望的方式。