为什么中位年龄比平均年龄更好?

机器算法验证 意思是 中位数 平均类型
2022-02-12 10:19:46

替代文字

替代文字

显然,在年龄方面,中位数似乎是首选的统计数据。

我无法向自己解释为什么算术平均值会是一个更糟糕的统计数据。为什么会这样?

最初发布在这里是因为我不知道这个网站存在。

4个回答

在我看来,统计数据并不能很好地回答这个问题。例如,平均值可能与死亡率研究相关,但年龄并不像您想象的那么容易测量。例如,老年人、文盲和一些第三世界国家的人倾向于将他们的年龄四舍五入到 5 或 10 的倍数。

中位数比平均值更能抵抗此类错误。此外,中位年龄通常为 20 至 40 岁,但人们可以活到 100 岁甚至更多(现代国家的人口中越来越多的人活到 100 岁以上)。与非常年轻的人相比,这个年龄的人对平均值的影响是他们对中位数的 1.5 到 4 倍。因此,中位数是关于一个国家年龄分布的最新统计数据,并且比平均值更独立于死亡率和预期寿命。

最后,中位数让我们更好地了解年龄分布本身:例如,当您看到中位数为 35 岁时,您知道一半的人口年龄超过 35 岁,您可以推断出一些关于出生率的信息,父母年龄等;但是如果平均值是 35,你就不能说那么多了,因为 35 可能会受到 70 岁时人口大幅增加的影响,或者可能是由于旧战争或流行病导致的某个年龄范围内的人口差距。

因此,出于人口统计而非统计原因,中位数似乎更值得作为综合值来总结相对较大人群的年龄。

约翰在姐妹网站上给了你一个很好的答案。

他没有明确提到的一个方面是稳健性:作为中心位置度量的中位数比平均值更好,因为它具有更高的分解点(50%),而平均值的分解点非常低,为 0(有关详细信息,请参阅维基百科)。

直观地说,这意味着个别不良观察不会偏斜中位数,而会偏斜均值。

这是我第一次在 math.stackexchange 上发布的答案:

中位数是许多人在说“平均”时实际上想到的。中位数更容易解释:一半人口高于这个年龄,一半低于这个年龄。平均值更微妙一些。

人们寻找对称性,有时会在对称性不存在时强加对称性。人口中的年龄分布远非对称,因此平均值可能会产生误导。年龄分布类似于金字塔。孩子多,老人不多。(或者至少它处于某种稳定状态。在美国,二战后的婴儿潮一代随着年龄的增长扭曲了这种分布。有些人称之为“金字塔的平方”,因为婴儿潮一代已经使金字塔的顶部比过去更宽。)

对于不对称分布,报告中位数可能会更好,因为它是一个对称统计量。即使抽样分布不是对称的,中位数也是对称的。

为什么斧头比斧头好?

这和你的问题类似。他们只是意味着和做不同的事情。如果一个人在谈论中位数,那么他们试图传达的故事,他们试图应用于数据的模型,与有手段的人不同。