我正在阅读分位数函数,但我不清楚。您能否提供比下面提供的更直观的解释?
由于 cdf是一个单调递增函数,它有一个逆函数;让我们用来表示。如果是的 cdf ,则是的值,使得;这称为分位数。值是分布的中位数,概率质量的一半在左边,一半在右边。值 和是下四分位数和上四分位数。
我正在阅读分位数函数,但我不清楚。您能否提供比下面提供的更直观的解释?
由于 cdf是一个单调递增函数,它有一个逆函数;让我们用来表示。如果是的 cdf ,则是的值,使得;这称为分位数。值是分布的中位数,概率质量的一半在左边,一半在右边。值 和是下四分位数和上四分位数。
所有这一切乍听之下可能很复杂,但它本质上是关于一些非常简单的事情。
通过累积分布函数,我们表示返回小于或等于某个值的概率的函数,
此函数将作为输入并从区间(概率)返回值——让我们将它们表示为。累积分布函数(或分位数函数)的逆会使返回某个值,
下图以正态累积分布函数(及其反函数)为例说明了这一点。
作为一个简单的示例,您可以采用标准的Gumbel分布。其累积分布函数为
并且可以很容易地反转:回忆自然对数函数是指数函数的反函数,因此很明显, Gumbel 分布的分位数函数是
如您所见,分位数函数根据其替代名称“反转”累积分布函数的行为。
不是每个函数都有逆函数。这就是为什么您引用的引用说“单调递增函数”的原因。回想一下函数的定义,它必须为每个输入值准确地分配一个输出。连续随机变量的累积分布函数满足这一性质,因为它们是单调递增的。对于离散随机变量,累积分布函数不连续且递增,因此我们使用需要非递减的广义逆分布函数。更正式地说,广义逆分布函数定义为
定义,翻译成简单的英语,说对于给定的概率值,我们正在寻找一些,这导致返回值大于或等于,但是因为可能有多个值满足这个条件(例如对于任何都为真),所以我们取其中最小的。
一般来说,对于不同的输入可以返回相同值的函数没有逆函数,例如密度函数(例如,标准正态密度函数是对称的,因此它对和等返回相同的值)。正态分布是一个有趣的例子还有一个原因——它是不具有封闭逆的累积分布函数的例子之一。并非每个累积分布函数都必须具有封闭形式的逆!希望在这种情况下,可以使用数值方法找到倒数。
分位数函数可用于随机生成,如逆变换方法如何工作?
蒂姆有一个非常彻底的答案。做得好!
我想再补充一句。并非每个单调递增函数都有反函数。实际上,只有严格单调递增/递减函数才有反函数。
对于非严格单调递增的单调递增 cdf,我们有一个分位数函数,也称为逆累积分布函数。您可以在此处找到更多详细信息。
反函数(对于那些严格增加的 cdf)和分位数函数(对于那些单调增加但不是严格单调增加的 cdfs)都可以表示为,这有时会令人困惑。
Forbes、Evans、Hastings 和 Peacock 所著的“统计分布”一书的第 2 章有一个简明的摘要和一致的符号。
分位数是变量(即变量)的任何可能值(例如,在随机抽取的上下文中)。作者举了一个抛 2 个硬币作为集合 {HH, HT, TH, TT} 的样本空间的例子。该样本中正面的数量是有序集合 {0, 1, 2} 的分位数。
对于概率分布或质量函数,您在 x 轴上绘制变量,在 y 轴上绘制概率。
如果您知道概率和函数并想从中推导出 x 轴上的变量,您将反转函数或近似它的反转以获得 x,知道 y。
离散或连续 pdf 沿 y 轴的离散或连续值可能不会增加,并且可能有多个 x 会导致相同的 y。
CDF(累积分布函数)更方便,因为绘制的函数沿 x 轴和 y 轴增加。提取分位数,即 CDF 中的变量通常更容易数学。
书中有一些图表展示了离散概率分布的属性,第 2 章中的 CDF 以及这些在你的问题上面发布的答案中也有显示(尽管我在输入这个时看不到它们回答)。
表 2.1 对许多术语进行了简明总结,第 4 项用于逆分布函数或分位数函数(概率 alpha),指的是从以概率为参数的逆函数中确定 x。
这本书是一本带有示例的实用手册,尽管实现反函数需要其他资源(如可在 NIST 找到的预计算表或已发布的近似算法等 。https://www.itl.nist.gov/div898/handbook /eda/section3/eda367.htm)。
(注意:第一句之后的所有内容都是根据 gung 的评论添加的。)