从该分布中提取的样本估计分布的 CDF 的正确方法是什么?

机器算法验证 估计 累积分布函数 经验累积分布
2022-03-29 22:51:54

给定样本,显而易见的做法是对它们进行排序,并通过取上平均分配它们作为对 CDF 上特定点的估计,并根据需要在点之间进行某种插值。n[0,1](x(k),(k1/2)/n)

这是进行此估算的“正确”方法吗?如何获得估计点的误差线?看起来它们不一定是对称的。

4个回答

在统计学中确实没有“正确”估计的概念,只是如果您构建的估计具有您正在寻找的属性。

通常,如果您尝试估计 CDF,您将使用 ECDF(经验 CDF),即其中是第阶统计量。Pr(X<x)=Σi=1nIx(i)x(x)n1X(i)i

ECDF 具有许多很好的属性,例如与 CDF 高度一致(逐点均匀)。

由于您具有连续分布的离散近似值,因此您可以生成可用于以通常的离散方式用于置信区间的分位数。

infx(x:Pr(X<x)π)

当然,没有理由相信置信区间应该是对称的,所以我对你最后一个我认为应该澄清的陈述感到困惑。

要获得误差线,您可以围绕整个经验累积分布函数 (ECDF) 构建置信区间。这可以使用 Dvoretzky-Kiefer-Wolfowitz 不等式来完成。如果您希望 ECDF在真实 CDF 的使用ϵ1α,n

n(12ϵ2)ln(2α)

因此,例如,如果您希望 ECDF 以以内,我们通过插入来找到,因此我们选择0.01

n18444.4
n=18445.

您始终可以使用内核密度估计器(它也可以将 cdf 作为组件 cdfs 的加权和)。然后,您可以通过引导可用数据来获得误差线。这将非常容易实现,并且会提供带有误差线的漂亮、行为良好的平滑 cdf。

在贝叶斯方法中,您可以使用狄利克雷过程(DP) 来估计 PDF,然后对其进行积分。您要做的是根据某些值的样本来估计函数。DP 方法允许您加入平滑假设,这很有用,因为您通常更喜欢可微的解决方案而不是看起来像楼梯的解决方案。然后,您的分析结果是函数的分布,它特别为您提供了一个平均函数,以及一些误差线。

下面的书有一章很好地介绍了狄利克雷过程:O'Hagan, A. 和 Forster, JJ (2004)。贝叶斯推理,第 2 版,“Kendall 的高级统计理论”第 2B 卷。阿诺德,伦敦。