有 99 个百分位数还是 100 个百分位数?它们是一组数字,还是指向单个数字的分隔符或指针?

机器算法验证 术语 分位数
2022-01-24 03:42:52

有 99 个百分位数还是 100 个百分位数?它们是一组数字,还是分隔线,还是指向单个数字的指针?

我想同样的问题也适用于四分位数或任何分位数。

我已经读过,给定 n 个项目,特定百分位数(p)处的数字的索引是 i = (p / 100) * n

这对我来说意味着有 100 个百分位......因为假设你有 100 个数字(i=1 到 i=100),那么每个数字都会有一个索引(1 到 100)。

如果你有 200 个数字,就会有 100 个百分位数,但每个百分位数都是指一组两个数字。或者 100 个分隔符,不包括最左边或最右边的分隔符 'cos,否则你会得到 101 个分隔符。或指向单个数字的指针,因此第一个百分位数将引用第二个数字,(1/100)*200=2 而百分位数将引用第 200 个数字 (100/100)*200=200

不过,我有时听说有 99 个百分位数。

谷歌展示了牛津词典,其中提到了百分位数——“可以​​根据特定变量的值的分布将人口分成的 100 个相等的组中的每一个”。和“将频率分布划分为 100 个这样的组的随机变量的 99 个中间值中的每一个”。

维基百科说“第 20 个百分位是可以找到 20% 的观察值以下的值”但它实际上是否意味着“低于或等于该值,可以找到 20% 的观察值”即“20% 的观察值” % 的值对它来说是 <= 的”。如果它只是 < 而不是 <=,那么根据这种推理,第 100 个百分位数将是可以找到 100% 值的值。我听说不能有 100% 的论据,因为你不能有一个低于 100% 的数字。但我认为也许你不能有第 100 个百分位的论点是不正确的,并且是基于一个错误,即百分位的定义涉及 <= 而不是 <。(或 >= 不 >)。所以百分位数将是最终数字,并且将是 >

4个回答

百分位数四分位数等这两种含义都被广泛使用。 用四分位数最容易说明差异:

  1. “除法器”的含义——有 3 个四分位数,它们是将分布(或样本)分成 4 个相等部分的值:

       1   2   3
    ---|---|---|---
    

    (有时这与包括最大值和最小值一起使用,因此有 5 个四分位数编号为 0-4;请注意,这与上面的编号不冲突,它只是扩展它。)

  2. “bin”意义:有 4 个四分位数,这 3 个值将分布(或样本)划分成的子集

     1   2   3   4
    ---|---|---|---
    

这两种用法都不能被合理地称为“错误”:许多有经验的从业者都在使用它们,并且都出现在大量权威来源(教科书、技术词典等)中。

对于四分位数,所使用的含义通常从上下文中很清楚:谈到第三个四分位数中的值只能是“bin”意义,而谈到低于第三个四分位数的所有值最有可能意味着“分隔符”意义。对于百分位数,这种区别通常不太清楚,但对于大多数用途来说也不是那么重要,因为分布的 1% 是如此之小——窄条大约是一条线。说到80% 以上的每个人,可能意味着前 20% 或前 19%,但在非正式的上下文中,这不是主要区别,在严格的工作中,所需的含义大概应该由上下文的其余部分来阐明。

(此答案的部分内容改编自https://math.stackexchange.com/questions/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles,其中还提供了引用+参考。)

对这个答案持保留态度 - 它开始相当错误,我仍在决定如何处理它。

这个问题部分是关于语言和用法的,而这个答案侧重于数学。我希望数学能为理解不同的用法提供一个框架。

处理这个问题的一种好方法是从简单的数学开始,然后再回到更复杂的真实数据案例。让我们从 PDF、CDF 和逆 CDF(也称为分位数函数)开始。和 cdf的分布的第个分位数假设第个百分位数是这提供了一种确定您识别的歧义的方法:我们可以查看为 1)不可逆,2)仅在某个域上可逆,或 3)可逆但其逆从未达到某些值的情况。xfFF1(x)zF1(z/100)F

1) 的示例:我将把它留到最后;继续阅读。

示例 2):对于均匀的 0,1 分布,CDF 在限制为 [0, 1] 时是可逆的,因此第 100 和第 0 个百分位数可以定义为给出了警告。否则,它们是不明确的,因为 (例如)也是 0。F1(1)F1(0)F(0.5)

2) 的另一个例子:对于从 0 到 1 和 2 到 3 的两个不相交区间上的均匀分布,CDF 看起来像这样。

在此处输入图像描述

此分布的大多数分位数都存在并且是唯一的,但中位数(第 50 个百分位数)本质上是模棱两可的。在 R 中,它们走了一半:quantile(c(runif(100), runif(100) + 2), 0.5)返回大约 1.5。

示例 3):对于正态分布,第 100 和第 0 个百分位数不存在(或者它们“是”)。这是因为正常的 CDF 永远不会达到 0 或 1。±

1) 的讨论:对于“好的”cdf,例如具有非极端分位数或连续分布,百分位数存在并且是唯一的。但是对于像泊松分布这样的离散分布,我的定义是模棱两可的,因为对于大多数,没有对于期望为 1 的泊松分布,CDF 如下所示。z/100yF(y)=z/100

在此处输入图像描述

对于第 60 个百分位数,R 返回 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60))。对于第 65 个百分位数,R 也返回 1。您可以将其视为绘制 100 个观察值,将它们从低到高排列,并返回第 60 或第 65 个项目。如果你这样做,你通常会得到 1。

对于真实数据,所有分布都是离散的。runif(100)或的经验 CDFnp.random.random(100)有 100 个增量聚集在 0.5 附近。)但是,R 的quantile函数似乎将它们视为来自连续分布的样本,而不是将它们视为离散的。例如,样本 3、4、5、6、7、8 的中位数(第 50 个百分位数或 0.5 个分位数)为 5.5。如果您从一个 unif(3,8) 分布中抽取 2n 个样本,并在第 n 个和第 (n+1) 个样本之间取任意数字,那么随着 n 的增加,您将收敛于 5.5。

有趣的是还要考虑具有相等概率达到 3、4、5、6、7、8 的离散均匀分布。(掷骰子加 2。)如果您采用上述泊松分布的样本和排名方法,通常会得到 5 或 6。随着样本变大,中间数字的分布将收敛到一半五点半六点。5.5 在这里似乎也是一个合理的妥协。

我被告知,第 n 个百分位数的观察值大于正在考虑的数据集中观察值的 n%。对我来说,这意味着没有第 0 个或第 100 个百分位数。没有观察可以大于 100% 的观察,因为它是 100% 的一部分(类似的逻辑适用于 0 的情况)。

编辑:对于它的价值,这也与我遇到的术语的非学术用法一致:“X在第 n 个百分位”意味着百分位是组,而不是边界。

不幸的是,我没有可以指出的来源。

还有其他计算百分位数的方法,以下不是唯一的方法。取自此 Source


百分位数的含义可以通过说明p分布的第 th 个百分位数是一个数字,使得大约 p百分 (p%) 分布中的值等于或小于该数字。因此,如果28是个80大量数字的第 th 个百分位数,80这些数字的百分比小于或等于28.

要计算百分位数,请对数据进行排序,以便x1是最小值,并且xn是最大的,

n= 观察总数,xi是个pi数据集的第 th 个百分位,其中:

pi=100(i0.5)n

来自相同注释的示例用于说明:

在此处输入图像描述

举一个例子,7是个50分布的第 th 个百分位,分布中大约一半的值等于或小于7.

如果你有 200 个数字,就会有 100 个百分位数,但每个百分位数都是指一组两个数字。

不。

假设数字按升序排序,从x1x200. 在这种情况下,百分位数是:

100(10.5)200,100(20.5)200,100(30.5)200,...

导致

0.25,0.75,1.25...对应于指数的百分位数1,2,3,...