为什么 1 个中位数低于另一个中位数这一事实并不意味着第 1 组中的大多数人小于第 2 组中的大多数人?

机器算法验证 分位数 直方图 箱形图 探索性数据分析
2022-03-20 02:52:40

我相信下面的箱线图可以解释为“大多数男性比大多数女性快”(在这个数据集中),主要是因为男性时间中位数低于女性时间中位数。但是关于 R 和统计的 EdX 课程的测验告诉我这是不正确的。请帮助我理解为什么我的直觉不正确。

这是问题:

让我们考虑 2002 年纽约市马拉松比赛的完赛者的随机样本。这个数据集可以在 UsingR 包中找到。加载库,然后加载 nym.2002 数据集。

library(dplyr)
data(nym.2002, package="UsingR")

使用箱线图和直方图比较男性和女性的完成时间。以下哪项最能描述这种差异?

  1. 男性和女性的分布相同。
  2. 大多数男性比大多数女性快。
  3. 男性和女性具有相似的右偏分布,前者向左移动 20 分钟。
  4. 两种分布均呈正态分布,平均相差约 30 分钟。

以下是男性和女性的纽约马拉松比赛时间,如分位数、直方图和箱线图:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

男性和女性时间 - 直方图

男女时代——箱线图

4个回答

这是我能找到的最小的反例:

1,4,10;  乙 0,6,9

  • A ([1, 4, 10])B ( [0, 6, 9]) 的平均值相同 ( 5)

  • B的中位数 ( 6) 比A ( 4)大

  • 随机A元素大于随机B元素的概率为 5/9

这是另一个包含 4 个元素的示例:

1,1,3,10;  B 0,0,6,9

我认为您被标记为不正确的原因与其说是您对多项选择题的回答是错误的,不如说是选项 3“男性和女性与前者具有相似的右偏分布,向左移动了 20 分钟”本来是一个更好的选择,因为它根据所提供的信息提供了更多信息。

“大多数男人比大多数女人快”可能有点模棱两可,但我通常会解释它的意图是如果我们看随机配对,大多数时候男人会更快 - 即P(Mi<Fj)>12对于随机i,j(在哪里Mi是时候了i-男性'等)。

当然,该短语的其他解释是可能的(毕竟这就是歧义),并且其中一些其他可能性可能与您的推理一致。

[我们还有一个问题是我们是在谈论样本还是人口......“大多数男性 [...] 大多数女性”似乎是一个人口陈述(关于潜在时代的人口),但我们只观察到时代我们似乎将其视为一个样本,因此我们必须小心我们提出的声明范围有多广。]

注意P(Mi<Fj)>12不暗示M~<F~. 他们可以朝相反的方向前进。

[我并不是说你认为男人比女人快的随机 MF 对的比例超过 1/2 是错误的——你几乎可以肯定是正确的我只是说你不能通过比较中位数来判断它。您也无法通过查看每个样本中高于或低于另一个样本中位数的比例来判断它。您必须进行不同的比较。]

也就是说,虽然中位男性可能比中位女性快,但有可能有一个时间样本(或时间的连续分布,就此而言),其中随机男性比随机女性快的机会是小于_12. 在大样本中,两个相反的迹象都可能很重要。


例子:

数据集A:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

数据集 B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

数据集 C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(数据在这里,但在那里被用于不同的目的——据我回忆,我自己生成了这个)

注意A<B的比例是2/3,A<C的比例是5/9,B<C的比例是2/3。A vs B 和 B vs C 在 5% 的水平上都是显着的,但我们可以通过添加足够的样本副本来实现任何水平的显着性。我们甚至可以通过复制样本但添加足够小的抖动(足够小于点之间的最小间隙)来避免平局

样本中位数走向另一个方向:中位数(A)>中位数(B)>中位数(C)

同样,我们可以通过重复样本来实现一些中位数比较的显着性 - 到任何显着性水平。

样品 A、B 和 C 的带状图,其中位数标记为显示 P(A<B) 与中位数等方向相反的方向

将其与当前问题联系起来,假设 A 是“女性时代”,B 是“男性时代”。那么中位男性的时间会更快,但随机选择的男性会比随机选择的女性慢 2/3 的时间。

从样本 A 和 C 中获取线索,我们可以生成更大的数据集(在 R 中),如下所示:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

F 的中位数将在 16.25 左右,而 M 的中位数将在 11.25 左右,但 F < M 的案例比例将是 5/9。

[如果我们用带参数的二项式变量替换 n/3n13 我们将从 F 分布的中位数为 16.25 而 M 的分布中位数为 11.25 的总体中抽样。同时,在该总体中,F < M 的概率将再次为 5/9。]

另请注意P(F<med(M))=23P(M>med(F))=23尽管med(M)<med(F)(相当远的距离)。

下图摘自这篇博文,说明了这些想法的重要实际应用。

标准化为比较 2 个分布提供了强大的工具。以下 3 个数字比较了英格兰国家儿童测量计划 (NCMP) 中 130 个月大男孩和女孩的身高。(这是该数据集中的模态年龄;我选择它只是为了在单个年龄组中获得最多的数据,因此是最平滑的图。)

图 1:来自英格兰国家儿童测量计划 (NCMP) 的 130 个月大男孩和女孩的身高

图 1:来自英格兰国家儿童测量计划 (NCMP) 的 130 个月大男孩和女孩的身高

图 2:130 个月大的男孩和女孩的身高百分比。 资料来源:英文NCMP

图 2: 130 个月大的男孩和女孩的身高百分比。资料来源:英文NCMP

图 3:130 个月大女孩相对于同龄男孩的身高分布。

图 3: 130 个月大女孩相对于同龄男孩的身高分布。

在这些数字的最后一个中,身高比较已根据男孩的身高进行了标准化。因此,沿着图 3 中的灰色虚线阅读,您可以做出如下陈述:

  • 男孩的身高中位数(即第 50 个百分位)仅为女孩的第 45 个百分位左右。因此,100% – 45%=55% 的女孩比中位男孩高。
  • 女孩的前四分之一身高(第 75 个百分位)达到男孩的前五分之一(第 80 个百分位)。因此,在 130 个月的儿童中,一个女孩比四分之三的女孩高,也比五分之四的男孩高。

这个情节中可能存在的一点混乱确实值得一提。尽管男孩的 45° 线在图上比女孩的洋红色曲线“高”,但这一观察结果与众所周知的事实相符,即在这个年龄(这些是 6 年级学生),女孩通常比男孩高. 请注意,这种高度适当地反映在品红色曲线相对于蓝线向右移动的事实中。

这种方法相当通用在这样的比较下,其中一组——你标准化的那一组——变成了 45°线。另一组通常可以是从左下到右上绘制的任何单调递增曲线。如果基础分布是连续的(密度没有点质量),则比较曲线将是连续的。如果基础密度共享相同的支撑,则曲线必须从(0,0)(1,1).

您的原始问题现在可以用几何术语重新提出,作为一个关于您是否可以绘制图 3 的洋红色曲线以便同时实现(a)中位数之间的假设关系和(b)@Glen_b 的稍微难以捉摸的关系的问题在他的回答中阐明(我相信是正确的)。我想知道分布不连续性(密度中的点质量)是否可以提供“病态”案例。我猜想任何这样的病态案例都将是“证明规则的例外”。


如果有人将您的测验问题最直接、最合乎逻辑的翻译成更正式的语言以进行分析,那么(使用从上方设置的儿童身高)我们可能想说一个人x如果有属性 TMBx大多数男孩_ 然后你的测验问题简单地问大多数女孩是否拥有 TMB 财产如果将“最”定义为超过一半,那么拥有 TMB 属性意味着比中等身高男孩高。询问大多数女孩是否具有 TMB 属性就等于询问中位数女孩是否具有此属性。因此,测验问题的答案是肯定的。

另一方面,如果“大多数”的实际意图是“>50%”,人们可能会期望使用更精确的短语“大多数”。如果有人告诉我“可能”会发生某事,我会认为是指 60% 或更多的主观概率。同样,“大多数”对我来说意味着更像是 70-80%。显然,从上图中,如果将“大多数”作为比 52.5% 更严格的标准,那么您就不能说“大多数女孩 [拥有她们] 比大多数男孩高”。我想知道测验问题的部分理由是否是为了刺激对与数字概念相关的单词的检查。(如果您认为这有点傻,请考虑这些图表,显示人们倾向于如何解释不同的概率词和短语。)也许目的还在于强调现实世界分布中存在很多变化的观点,并且单个统计数据(中位数、均值、有什么-你)很少支持广泛的、笼统的陈述。