帮我理解分位数(逆 CDF)函数

机器算法验证 分布 累积分布函数 分位数
2022-02-06 14:02:16

我正在阅读分位数函数,但我不清楚。您能否提供比下面提供的更直观的解释?

由于 cdf是一个单调递增函数,它有一个逆函数;让我们用来表示。如果的 cdf ,则的值,使得这称为分位数是分布的中位数,概率质量的一半在左边,一半在右边。是下四分位数和上四分位数。FF1FXF1(α)xαP(Xxα)=ααFF1(0.5)F1(0.25)F1(0.75)

3个回答

所有这一切乍听之下可能很复杂,但它本质上是关于一些非常简单的事情。

通过累积分布函数,我们表示返回小于或等于某个值的概率的函数,Xx

Pr(Xx)=F(x).

此函数将作为输入并从区间(概率)返回值——让我们将它们表示为累积分布函数(或分位数函数)会使返回某个值x[0,1]pxF(x)p

F1(p)=x.

下图以正态累积分布函数(及其反函数)为例说明了这一点。

在此处输入图像描述

例子

作为一个简单的示例,您可以采用标准的Gumbel分布。其累积分布函数为

F(x)=eex

并且可以很容易地反转:回忆自然对数函数是指数函数的反函数,因此很明显, Gumbel 分布的分位数函数是

F1(p)=ln(ln(p))

如您所见,分位数函数根据其替代名称“反转”累积分布函数的行为。

广义逆分布函数

不是每个函数都有逆函数。这就是为什么您引用的引用说“单调递增函数”的原因。回想一下函数的定义,它必须为每个输入值准确地分配一个输出。连续随机变量的累积分布函数满足这一性质,因为它们是单调递增的。对于离散随机变量,累积分布函数不连续且递增,因此我们使用需要非递减的广义逆分布函数。更正式地说,广义逆分布函数定义为

F1(p)=inf{xR:F(x)p}.

定义,翻译成简单的英语,说对于给定的概率值,我们正在寻找一些,这导致返回值大于或等于,但是因为可能有多个值满足这个条件(例如对于任何都为真),所以我们取其中最小的pxF(x)pxF(x)0 xx

没有逆的函数

一般来说,对于不同的输入可以返回相同值的函数没有逆函数,例如密度函数(例如,标准正态密度函数是对称的,因此它对等返回相同的值)。正态分布是一个有趣的例子还有一个原因——它是不具有封闭逆的累积分布函数的例子之一。并非每个累积分布函数都必须具有封闭形式的逆!希望在这种情况下,可以使用数值方法找到倒数。22

用例

分位数函数可用于随机生成,如逆变换方法如何工作?

蒂姆有一个非常彻底的答案。做得好!

我想再补充一句。并非每个单调递增函数都有反函数。实际上,只有严格单调递增/递减函数才有反函数。

对于非严格单调递增的单调递增 cdf,我们有一个分位数函数,也称为逆累积分布函数。您可以在此处找到更多详细信息。

反函数(对于那些严格增加的 cdf)和分位数函数(对于那些单调增加但不是严格单调增加的 cdfs)都可以表示为,这有时会令人困惑。F1

Forbes、Evans、Hastings 和 Peacock 所著的“统计分布”一书的第 2 章有一个简明的摘要和一致的符号。

分位数是变量(即变量)的任何可能值(例如,在随机抽取的上下文中)。作者举了一个抛 2 个硬币作为集合 {HH, HT, TH, TT} 的样本空间的例子。该样本中正面的数量是有序集合 {0, 1, 2} 的分位数。

对于概率分布或质量函数,您在 x 轴上绘制变量,在 y 轴上绘制概率。

如果您知道概率和函数并想从中推导出 x 轴上的变量,您将反转函数或近似它的反转以获得 x,知道 y。

离散或连续 pdf 沿 y 轴的离散或连续值可能不会增加,并且可能有多个 x 会导致相同的 y。

CDF(累积分布函数)更方便,因为绘制的函数沿 x 轴和 y 轴增加。提取分位数,即 CDF 中的变量通常更容易数学。

书中有一些图表展示了离散概率分布的属性,第 2 章中的 CDF 以及这些在你的问题上面发布的答案中也有显示(尽管我在输入这个时看不到它们回答)。

表 2.1 对许多术语进行了简明总结,第 4 项用于逆分布函数或分位数函数(概率 alpha),指的是从以概率为参数的逆函数中确定 x。

这本书是一本带有示例的实用手册,尽管实现反函数需要其他资源(如可在 NIST 找到的预计算表或已发布的近似算法等 。https://www.itl.nist.gov/div898/handbook /eda/section3/eda367.htm)。

(注意:第一句之后的所有内容都是根据 gung 的评论添加的。)