来自经验 CDF 的经验 PDF

机器算法验证 密度函数 累积分布函数 直方图 经验可能性
2022-03-28 19:41:10

假设我做了次实验并得到一个向量的结果。的经验累积分布函数。假设已排序,使得近似地, NXCX(y)XXx1x2xN

CX(y)=0 if yx for all xX
CX(y)=1 if y>x for all xX
CX(y)=i+yxixi+1xiN if xiyxi+1

问题:的相应经验 PDF 的最有效方法是什么?只是通过直方图插值?X

2个回答

随机样本的经验 PDF 是一个离散概率分布,如果没有关联,则为每个观测分配概率质量,如果有 2 个关联观测,则分配 2,以此类推。1/N

两件事之一:

1)制作固定的直方图桶大小,然后计算每个桶中出现的点数。换句话说,将的范围分解为 n 个相等的间隔,然后每个间隔的计数是您的 CDF 在该间隔内“步进”的次数,对于每个间隔。警告:完成后,您需要进行标准化,以使所有桶的概率增加为 100%。x

2) 只需取每对 CDF 点之间的差异(因此它们之间的高度变化),除以得到 CDF 在该点沿轴的斜率,并使用这些斜率的线连接PDF 绘图的点。本质上,您正在采用并使用 CDF 的导数的数值近似,即 PDF。警告:如果你如何做到这一点不会意外地在每个点之类的东西,你将需要非常仔细地考虑。换句话说,将每个部分居中对于正确处理非常重要。δxixδxi/2

如果你有很多点,方法 1 的出错率会低很多 - 例如,有 1000 个点,你可能会得到一个很好的离散直方图表示,比如带有 20-50 个桶的正态分布,你可以做数值轻松统计(平均,时刻)。由于这通常是您想要的,因此它可以完成工作。

我感觉到您希望做一些看起来更像连续函数的事情,方法 2 会得到,但我会警告您不要这样做,除非您有少量数据点。您会发现: (1) 很难以某种方式表示(即,在电子表格上或作为数据结构);(2)即使是好的表示也很难工作,并且(3)需要很多思考才能做到正确。

我做了很多分布未知的数值方法,方法一在大多数情况下都非常准确(同样,有足够的点)。