什么时候测试中位数相等,什么时候测试随机相等?

机器算法验证 假设检验 非参数 中位数 随机排序
2022-04-06 18:59:56

在统计学中,我们经常对调查某个人群(比如说富人)的某个分数(比如说生活满意度)是否比另一个人群(比如说穷人)更大感兴趣。大多数情况下,这个研究问题是通过检验均值的零假设来形式化的。但是,为了使均值比较有意义,感兴趣的变量必须至少在区间尺度上。因此,对于序数数据,应使用其他形式化。

两种形式化通常用于序数数据。中位数相等和随机相等,定义为,其中是代表两个总体的随机变量。许多论文认为随机等式是更好的形式化。核心论点是,即使一个总体的分数明显更大,中位数也可以相等。的以下混合分布为例概率为 0.5只是,概率它是从中采样的。同样,概率为 0.5,仅为P(X<Y)=P(X>Y)X,YXYX1.5Uniform[0,1)Y1的概率中采样。因此,,而的没有实现更小比的任何实现和的实现都大于的所有实现。.5Uniform(1,2]Median(X)=1=Median(Y)YX50%YX

因此,我们是否应该停止测试中位数的相等性,或者是否有研究问题中位数的相等性是合适的问题?如果是,那些是什么?

1个回答

这部分取决于序数类别的数量。

如果类别的数量很少,那么比较中位数可能无法提供信息。假设类别是 Like/Like Somewhat/Neutral/Dislike Somewhat/Dislike,穷人组的答案分配 20%-20%-20%-20%-20%,富人组的答案分配 10%-20%- 25%-25%-20%。那么两组的反应中值都是 Neutral,但随机对的比较表明,富人可能会比穷人更消极。根据组的大小,这可能很重要。

如果类别的数量很大,那么比较中位数可能更有用。假设 A 组和 B 组的 12 个人同时开始一项任务,唯一可用的数据是他们以 ABABBBAAABAB 的顺序完成。然后,两组中的随机配对让 A 或 B 人先完成的可能性相同,但 B 组中的中位数人比 A 组中的中位数人更早完成。同样,组中有足够的人,差异中位数可能很重要。

更一般地,如果您不关心两个组尾部的小扰动,或者您认为这些尾部存在更多噪声或测量误差,则中位数更稳健,适合测试显着性他们的区别。