为什么样本的CDF是均匀分布的

机器算法验证 密度函数 均匀分布 累积分布函数 直觉
2022-02-07 11:20:50

我在这里读到,给定来自具有 cdf的连续分布的样本,对应于的样本遵循标准均匀分布。X1,X2,...,XnFXUi=FX(Xi)

我已经使用 Python 中的定性模拟验证了这一点,并且我很容易能够验证这种关系。

import matplotlib.pyplot as plt
import scipy.stats

xs = scipy.stats.norm.rvs(5, 2, 10000)

fig, axes = plt.subplots(1, 2, figsize=(9, 3))
axes[0].hist(xs, bins=50)
axes[0].set_title("Samples")
axes[1].hist(
    scipy.stats.norm.cdf(xs, 5, 2),
    bins=50
)
axes[1].set_title("CDF(samples)")

导致以下情节:

绘图显示正态分布的样本和样本的 cdf。

我无法理解为什么会发生这种情况。我认为它与 CDF 的定义以及它与 PDF 的关系有关,但我遗漏了一些东西......

如果有人能指点我阅读有关该主题的内容或帮助我对该主题有一些直觉,我将不胜感激。

编辑:CDF 看起来像这样:

抽样分布的 CDF

3个回答

假设是连续且递增的。定义并注意采用中的值。那么 FXZ=FX(X)Z[0,1]

FZ(x)=P(FX(X)x)=P(XFX1(x))=FX(FX1(x))=x.

另一方面,如果是取值在中的均匀随机变量, U[0,1]

FU(x)=RfU(u)du=0xdu=x.

因此对于每个由于具有相同的分布函数也必须在上是均匀的。FZ(x)=FU(x)x[0,1]ZUZ[0,1]

视为百分位函数可能是有意义的的随机生成样本的预计会低于或者(想想逆图像,不是一个适当的逆函数本身)是一个“分位数”函数。是点落在比例之后。函数组合是可测量的可交换F(x)F(x)FxF1x=F1(p)xpFF1=λF1F

均匀分布是唯一具有等于百分位数函数的分位数函数的分布:它们是恒等函数。所以图像空间与概率空间相同。将连续随机变量映射到具有相等度量的 (0, 1) 空间。因为对于任何两个百分位数,我们有Fa<bP(F1(a)<x<F1(b))=P(a<F(X)<b)=ba

这里有一些直觉。让我们用一个离散的例子。

假设考试后学生的分数是但是您希望分数更加均匀或统一。看起来更好。X=[10,50,60,90]h(X)=[25,50,75,100]

实现这一目标的一种方法是找到每个学生分数的百分位数。分数,分数,依此类推。请注意,百分位数只是 CDF。所以样本的 CDF 是“均匀的”。1025%5050%

是一个随机变量时,的百分位数是“一致的”(例如的数量应该与的数量相同)。的 CDF是均匀分布的。XXX025X2550X