给定样本,显而易见的做法是对它们进行排序,并通过取上平均分配它们作为对 CDF 上特定点的估计,并根据需要在点之间进行某种插值。
这是进行此估算的“正确”方法吗?如何获得估计点的误差线?看起来它们不一定是对称的。
给定样本,显而易见的做法是对它们进行排序,并通过取上平均分配它们作为对 CDF 上特定点的估计,并根据需要在点之间进行某种插值。
这是进行此估算的“正确”方法吗?如何获得估计点的误差线?看起来它们不一定是对称的。
在统计学中确实没有“正确”估计的概念,只是如果您构建的估计具有您正在寻找的属性。
通常,如果您尝试估计 CDF,您将使用 ECDF(经验 CDF),即。其中是第阶统计量。
ECDF 具有许多很好的属性,例如与 CDF 高度一致(逐点均匀)。
由于您具有连续分布的离散近似值,因此您可以生成可用于以通常的离散方式用于置信区间的分位数。
当然,没有理由相信置信区间应该是对称的,所以我对你最后一个我认为应该澄清的陈述感到困惑。
要获得误差线,您可以围绕整个经验累积分布函数 (ECDF) 构建置信区间。这可以使用 Dvoretzky-Kiefer-Wolfowitz 不等式来完成。如果您希望 ECDF在真实 CDF 的则使用
因此,例如,如果您希望 ECDF 以以内,我们通过插入来找到,因此我们选择
您始终可以使用内核密度估计器(它也可以将 cdf 作为组件 cdfs 的加权和)。然后,您可以通过引导可用数据来获得误差线。这将非常容易实现,并且会提供带有误差线的漂亮、行为良好的平滑 cdf。
在贝叶斯方法中,您可以使用狄利克雷过程(DP) 来估计 PDF,然后对其进行积分。您要做的是根据某些值的样本来估计函数。DP 方法允许您加入平滑假设,这很有用,因为您通常更喜欢可微的解决方案而不是看起来像楼梯的解决方案。然后,您的分析结果是函数的分布,它特别为您提供了一个平均函数,以及一些误差线。
下面的书有一章很好地介绍了狄利克雷过程:O'Hagan, A. 和 Forster, JJ (2004)。贝叶斯推理,第 2 版,“Kendall 的高级统计理论”第 2B 卷。阿诺德,伦敦。