机器算法验证 - 有 99 个百分位数还是 100 个百分位数？它们是一组数字，还是指向单个数字的分隔符或指针？ - 吾爱随笔录

有 99 个百分位数还是 100 个百分位数？它们是一组数字，还是指向单个数字的分隔符或指针？

机器算法验证术语分位数

2022-01-24 03:42:52

有 99 个百分位数还是 100 个百分位数？它们是一组数字，还是分隔线，还是指向单个数字的指针？

我想同样的问题也适用于四分位数或任何分位数。

我已经读过，给定 n 个项目，特定百分位数（p）处的数字的索引是 i = (p / 100) * n

这对我来说意味着有 100 个百分位......因为假设你有 100 个数字（i=1 到 i=100），那么每个数字都会有一个索引（1 到 100）。

如果你有 200 个数字，就会有 100 个百分位数，但每个百分位数都是指一组两个数字。或者 100 个分隔符，不包括最左边或最右边的分隔符 'cos，否则你会得到 101 个分隔符。或指向单个数字的指针，因此第一个百分位数将引用第二个数字，(1/100)*200=2 而百分位数将引用第 200 个数字 (100/100)*200=200

不过，我有时听说有 99 个百分位数。

谷歌展示了牛津词典，其中提到了百分位数——“可以根据特定变量的值的分布将人口分成的 100 个相等的组中的每一个”。和“将频率分布划分为 100 个这样的组的随机变量的 99 个中间值中的每一个”。

维基百科说“第 20 个百分位是可以找到 20% 的观察值以下的值”但它实际上是否意味着“低于或等于该值，可以找到 20% 的观察值”即“20% 的观察值” % 的值对它来说是 <= 的”。如果它只是 < 而不是 <=，那么根据这种推理，第 100 个百分位数将是可以找到 100% 值的值。我听说不能有 100% 的论据，因为你不能有一个低于 100% 的数字。但我认为也许你不能有第 100 个百分位的论点是不正确的，并且是基于一个错误，即百分位的定义涉及 <= 而不是 <。（或 >= 不 >）。所以百分位数将是最终数字，并且将是 >

4个回答

百分位数、四分位数等这两种含义都被广泛使用。用四分位数最容易说明差异：

“除法器”的含义——有 3 个四分位数，它们是将分布（或样本）分成 4 个相等部分的值：
```
   1   2   3
---|---|---|---
```
（有时这与包括最大值和最小值一起使用，因此有 5 个四分位数编号为 0-4；请注意，这与上面的编号不冲突，它只是扩展它。）
“bin”意义：有 4 个四分位数，这 3 个值将分布（或样本）划分成的子集
```
 1   2   3   4
---|---|---|---
```

这两种用法都不能被合理地称为“错误”：许多有经验的从业者都在使用它们，并且都出现在大量权威来源（教科书、技术词典等）中。

对于四分位数，所使用的含义通常从上下文中很清楚：谈到第三个四分位数中的值只能是“bin”意义，而谈到低于第三个四分位数的所有值最有可能意味着“分隔符”意义。对于百分位数，这种区别通常不太清楚，但对于大多数用途来说也不是那么重要，因为分布的 1% 是如此之小——窄条大约是一条线。说到80% 以上的每个人，可能意味着前 20% 或前 19%，但在非正式的上下文中，这不是主要区别，在严格的工作中，所需的含义大概应该由上下文的其余部分来阐明。

（此答案的部分内容改编自https://math.stackexchange.com/questions/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles，其中还提供了引用+参考。）

对这个答案持保留态度 - 它开始相当错误，我仍在决定如何处理它。

这个问题部分是关于语言和用法的，而这个答案侧重于数学。我希望数学能为理解不同的用法提供一个框架。

处理这个问题的一种好方法是从简单的数学开始，然后再回到更复杂的真实数据案例。让我们从 PDF、CDF 和逆 CDF（也称为分位数函数）开始。和 cdf的分布的第个分位数是。假设第个百分位数是。这提供了一种确定您识别的歧义的方法：我们可以查看为 1）不可逆，2）仅在某个域上可逆，或 3）可逆但其逆从未达到某些值的情况。 $x$ $f$ $F$ $F^{-1}(x)$ $z$ $F^{-1}(z/100)$ $F$

1) 的示例：我将把它留到最后；继续阅读。

示例 2)：对于均匀的 0,1 分布，CDF 在限制为 [0, 1] 时是可逆的，因此第 100 和第 0 个百分位数可以定义为和给出了警告。否则，它们是不明确的，因为（例如）也是 0。 $F^{-1}(1)$ $F^{-1}(0)$ $F(-0.5)$

2) 的另一个例子：对于从 0 到 1 和 2 到 3 的两个不相交区间上的均匀分布，CDF 看起来像这样。

此分布的大多数分位数都存在并且是唯一的，但中位数（第 50 个百分位数）本质上是模棱两可的。在 R 中，它们走了一半：quantile(c(runif(100), runif(100) + 2), 0.5)返回大约 1.5。

示例 3)：对于正态分布，第 100 和第 0 个百分位数不存在（或者它们“是”）。这是因为正常的 CDF 永远不会达到 0 或 1。 $\pm \infty$

1) 的讨论：对于“好的”cdf，例如具有非极端分位数或连续分布，百分位数存在并且是唯一的。但是对于像泊松分布这样的离散分布，我的定义是模棱两可的，因为对于大多数，没有与。对于期望为 1 的泊松分布，CDF 如下所示。 $z/100$ $y$ $F(y) = z/100$

对于第 60 个百分位数，R 返回 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60))。对于第 65 个百分位数，R 也返回 1。您可以将其视为绘制 100 个观察值，将它们从低到高排列，并返回第 60 或第 65 个项目。如果你这样做，你通常会得到 1。

对于真实数据，所有分布都是离散的。（runif(100)或的经验 CDFnp.random.random(100)有 100 个增量聚集在 0.5 附近。）但是，R 的quantile函数似乎将它们视为来自连续分布的样本，而不是将它们视为离散的。例如，样本 3、4、5、6、7、8 的中位数（第 50 个百分位数或 0.5 个分位数）为 5.5。如果您从一个 unif(3,8) 分布中抽取 2n 个样本，并在第 n 个和第 (n+1) 个样本之间取任意数字，那么随着 n 的增加，您将收敛于 5.5。

有趣的是还要考虑具有相等概率达到 3、4、5、6、7、8 的离散均匀分布。（掷骰子加 2。）如果您采用上述泊松分布的样本和排名方法，通常会得到 5 或 6。随着样本变大，中间数字的分布将收敛到一半五点半六点。5.5 在这里似乎也是一个合理的妥协。

我被告知，第 n 个百分位数的观察值大于正在考虑的数据集中观察值的 n%。对我来说，这意味着没有第 0 个或第 100 个百分位数。没有观察可以大于 100% 的观察，因为它是 100% 的一部分（类似的逻辑适用于 0 的情况）。

编辑：对于它的价值，这也与我遇到的术语的非学术用法一致：“X在第 n 个百分位”意味着百分位是组，而不是边界。

不幸的是，我没有可以指出的来源。

还有其他计算百分位数的方法，以下不是唯一的方法。取自此 Source。

百分位数的含义可以通过说明 $p$ 分布的第 th 个百分位数是一个数字，使得大约 $p$ 百分（ $p\%$ ) 分布中的值等于或小于该数字。因此，如果 $28$ 是个 $80$ 大量数字的第 th 个百分位数， $80$ 这些数字的百分比小于或等于 $28$ .

要计算百分位数，请对数据进行排序，以便 $x_1$ 是最小值，并且 $x_n$ 是最大的，

和 $n$ = 观察总数， $x_i$ 是个 $p_i$ 数据集的第 th 个百分位，其中：

$p_i = \dfrac{100(i - 0.5)}{n}$

来自相同注释的示例用于说明：

举一个例子， $7$ 是个 $50$ 分布的第 th 个百分位，分布中大约一半的值等于或小于 $7$ .

如果你有 200 个数字，就会有 100 个百分位数，但每个百分位数都是指一组两个数字。

不。

假设数字按升序排序，从 $x_1$ 到 $x_\mathrm{200}$ . 在这种情况下，百分位数是：

$\dfrac{100(1-0.5)}{200}$ , $\dfrac{100(2-0.5)}{200}$ , $\dfrac{100(3-0.5)}{200}$ , $...$

导致

$0.25, 0.75, 1.25 ...$ 对应于指数的百分位数 $1, 2, 3, ...$

其它你可能感兴趣的问题

上一篇特征数量与观察数量下一篇原始或正交多项式回归？