数据中的 CDF 可以与另一个 CDF 交叉吗

机器算法验证 分布 累积分布函数
2022-04-02 04:44:42

给定两个正实数X和Y的数据集,大小相同,每行0<=Y<=X;X 的经验 CDF 能否与 Y 的经验 CDF 交叉?

3个回答

经验 cdf,是样本在 t 或低于的比例。F^(t)t

考虑通过增加的固定值下,通过增加进行排序)。yyx

然后对于每个这样的行(例如第行),每个 cdf 的高度为 *,x 样本的相应横坐标始终位于 y 样本横坐标的右侧。阶跃函数可以重合,但 x 样本 ecdf 永远不会位于 y 样本 ecdf 的上方/左侧。ii/n

在此处输入图像描述

确实,想象一下我们在 ecdf 中“绘制”所有垂直跳跃。的某个值处在绘图上绘制的水平线的特定值处撞击 ecdf 步骤,该值出现在我们的表中,按顺序列出样本值(实际上,对于给定的值,很容易算出哪一行是),它总是有FyxFyixi

*(当存在重复值时会稍微复杂一些,但不会实质性地改变参数)

对于图中的灰色水平线(发生了 ecdf 的垂直跳跃,这些跳跃发生在数据表的第 73 行,如前所述排序时。F0.481ty=194.4503tx=200.0431

Glen_b 的回答是正确的,但我认为有一种更简单的方法来证明这一点。

eCDF 是(的值的比例)的图。我们首先按升序对值进行排序:称它们为此外,根据您的问题,我们知道这两个向量的长度相同,并且对于每个索引xxx1,x2,,xny1,y2,,ynyixii

由于大于或等于必须位于的右侧或右侧,并且由于它们是列表中的最小点,它们的高度/y 坐标均为y1x1y1x11n两条曲线以相同的速率向上移动(1n每一步)和右侧。然而,由于yi>xi, 这Y曲线至少向右移动尽可能远X每一步的曲线。

由于Y曲线开始于或向右X曲线和每个后续更新推送Y至少在最右边X,曲线永远不会交叉。

只需将上面写的内容形式化:

如果经验 CDF 写成FXFY分别,那么

FX(x)=1nxiI(xix)同样 FY(x)=1nyiI(yix).

现在,对于任何x,我们可以证明I(xix)I(yix). 通过矛盾证明这一点 - 假设有一个x这不成立并表明必须有一对(xi,yi)为此yi>xi.

因此,FX(x)FY(x)对所有人x.

注意:此演示中有一些隐含的假设,即数据点的数量是有限的。我想可能有相同大小(即基数)的无限数据集。我相当肯定结果成立,但对这种结果的证明却不太确定。