我们什么时候会使用分位数和中位数,而不是分位数和中位数?

机器算法验证 描述性统计 分位数 中位数 意思是 部分矩
2022-02-13 06:06:08

我在 Wikipedia 或 Wolfram Mathworld 上找不到 tantile 或 medial 的定义,但在 Bílková, D. 和 Mala, I. (2012) 中给出了以下解释,“在对收入分配进行建模时应用 L 矩方法在捷克共和国”,奥地利统计杂志41 (2), 125–132。

中间是一个值50%(sample) tantile 就像样本中位数等于 a 的值一样50%样本分位数。样本分位数以及样本分位数基于有序样本。首先,评估有序样本中的累积观测和。然后,对于给定的百分比p,0<p<100, 一种p%tantile 定义为分析变量的值,它将有序样本中的所有观测值分成两部分:较小或相等观测值的总和是p%观察值总和与观察值总和中较大的表示残差(100p)%这笔款项。

何时使用这些作为位置度量而不是更传统的中位数或其他分位数有意义?该论文给出了一种可能的情况,即家庭收入:

从这个定义可以得出,中间值可以作为收入水平的合理特征,因为收入低于或等于中间值的家庭获得样本中总收入的一半,收入较高的家庭比内侧接另一半。

在这种情况下,家庭收入中位数为117,497捷克克朗(即一半的家庭收入高于此数字,一半家庭收入高于此数字),而家庭收入中位数为 133,930 捷克克朗(收入高于此数字的家庭的一半收入为总收入)。请注意,这种比较不一定反映家庭收入的偏度,甚至不一定反映家庭收入的不均匀性:即使家庭收入分布均匀,中位数仍高于中位数。据我理解的定义,如果所有家庭的收入相同,则中位数只会等于中位数。

那么在这种情况下是否有任何特别的理由更喜欢内侧,或者至少将其用作补充措施?中位数和中位数之间的比较究竟告诉我们什么?由于我刚才提到的原因,中间值似乎不能直接与其他集中趋势度量相比较。是否还有其他情况可以广泛使用内侧/tantiles 或被视为特别有用的信息?非常欢迎使用它们的实际示例以及样本研究论文,并且对它们可能被证明有用的更广泛背景的直观想法会更好。

它必须要求总计和小计有意义——这似乎与金钱有关,以及“馅饼”的分配方式——但即使是加法的行为也只对某些数量有意义。对于密集而不是广泛的属性,例如密度或温度,任何形式的求和在物理上都没有意义。在我看来,一个广泛的财产是必要的,但不足以让 tantiles 有所帮助,因为我可以想象一个航运分析师对运输的货物重量感兴趣,所以 50% 的货物(按重量)是携带该重量或以上重量的负载,但我无法想象生态学家会对蝾螈的长度感兴趣,以至于所有蝾螈总长度的 50% 是由该长度或以上长度的蝾螈贡献的。

1个回答

这确实是一条评论,但评论太长了。它试图澄清“tantile”的定义(在p=0.5类似于中位数的情况)。X是(为简单起见)具有密度函数的绝对连续随机变量f(x). 我们假设期望μ=EX确实存在,那就是积分μ=xf(x)dx收敛。与累积分布函数类似,定义一个“累积期望函数”(我从未见过这样的概念,它有正式名称吗?)

G(t)=txf(x)dx
那么“tantile”就是解决方案t方程的G(t)=μ/2.

这种解释正确吗?这是故意的吗?

回到最初的问题,在收入分配的背景下,tantile 是收入的价值,即总收入的一半用于收入高于该收入的人,而总收入的一半用于收入低于该收入的人。

EDIT

这些量(函数G(t)以上)与一些金融文献中使用的各种风险度量有关,例如“预期短缺”。

看看论文 AJ Ostaszewski 和 MB Gietzmann:“使用 Dye 的披露选项创造价值:采用上尾披露策略的最佳风险屏蔽”(2006 年 5 月),尤其是在第 15 页左右,他们在其中定义了他们称之为“Hemi-意思是“与G(t)上面,还有“相对于t也称为 $first lower partial moment”。研究这些联系会很有趣......

这个想法的另一个术语是“部分期望”。参见例如https://math.stackexchange.com/questions/1080530/the-partial-expectation-mathbbex-xk-for-an-alpha-stable-distributed-r 并使用谷歌!

此外,Kotz & Kleiber:“Statistical Size Distributions in Economics and Actuarial Science”一书提供了相关信息,他们在第 22 页定义了(这里X>0)

Fk(x)=1EXk0xtkf(t)dt
哪一个是k矩分布”,请注意G(t)=μF1(t)所以基本上是一阶分布。他们指的是 Champernown (1974),他称F1“收入曲线”,表示基础 cdfF经过F0. 根据一阶矩分布,洛伦兹曲线可以表示为
{(u,L(u))}={(u,v):u=F(x),v=F1(x);x0}