给定两个正实数X和Y的数据集,大小相同,每行0<=Y<=X;X 的经验 CDF 能否与 Y 的经验 CDF 交叉?
数据中的 CDF 可以与另一个 CDF 交叉吗
机器算法验证
分布
累积分布函数
2022-04-02 04:44:42
3个回答
经验 cdf,是样本在 t 或低于的比例。
考虑通过增加的固定值下,通过增加进行排序)。
然后对于每个这样的行(例如第行),每个 cdf 的高度为 *,x 样本的相应横坐标始终位于 y 样本横坐标的右侧。阶跃函数可以重合,但 x 样本 ecdf 永远不会位于 y 样本 ecdf 的上方/左侧。
确实,想象一下我们在 ecdf 中“绘制”所有垂直跳跃。的某个值处在绘图上绘制的水平线和的特定值处撞击 ecdf 步骤,该值出现在我们的表中,按顺序列出样本值(实际上,对于给定的值,很容易算出哪一行是),它总是有。
*(当存在重复值时会稍微复杂一些,但不会实质性地改变参数)
对于图中的灰色水平线(和发生了 ecdf 的垂直跳跃,这些跳跃发生在数据表的第 73 行,如前所述排序时。
Glen_b 的回答是正确的,但我认为有一种更简单的方法来证明这一点。
eCDF 是(的值的比例)的图。我们首先按升序对值进行排序:称它们为和。此外,根据您的问题,我们知道这两个向量的长度相同,并且对于每个索引。
由于大于或等于,必须位于的右侧或右侧,并且由于它们是列表中的最小点,它们的高度/y 坐标均为。两条曲线以相同的速率向上移动(每一步)和右侧。然而,由于, 这曲线至少向右移动尽可能远每一步的曲线。
由于曲线开始于或向右曲线和每个后续更新推送至少在最右边,曲线永远不会交叉。
只需将上面写的内容形式化:
如果经验 CDF 写成和分别,那么
同样 .
现在,对于任何,我们可以证明. 通过矛盾证明这一点 - 假设有一个这不成立并表明必须有一对为此.
因此,对所有人.
注意:此演示中有一些隐含的假设,即数据点的数量是有限的。我想可能有相同大小(即基数)的无限数据集。我相当肯定结果成立,但对这种结果的证明却不太确定。
其它你可能感兴趣的问题