删失数据的估计 CDF 图上的现象名称

机器算法验证 生存 累积分布函数 审查
2022-03-24 18:57:10

我的数据集包含两个(相当强相关的)变量t(算法的运行时)和n(检查节点的数量,无论如何)。两者在设计上是强相关的,因为算法可以粗略地管理c每秒节点数。

该算法在几个问题上运行,但如果在超时后仍未找到解决方案,则该算法被终止T. 所以数据在时间变量上被右删失。

我绘制变量的估计累积密度函数(或累积计数)n对于算法确实终止的情况t<T. 这表明最多可以通过扩展解决多少问题n节点,对于比较算法的不同配置很有用。但在剧情中n,顶部有那些有趣的尾巴,如下图所示。比较变量的 ecdft, 对其进行了审查。

累计数n

n 的 ecdf

累计数t

t 的 ecdf

模拟

我理解为什么会发生这种情况,并且可以使用以下R代码在模拟中重现该效果。这是由于在添加一些噪声的情况下对强相关变量进行审查造成的。

qplot(
  Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
         runif(10000,0,10)),
  stat="ecdf",geom="step")

合成数据

这种现象怎么称呼? 我需要在出版物中声明这些粉丝是实验的产物,并不反映真实的分布。

3个回答

我不是专家,但我相信您所看到的类似于软剪辑

排序裁剪(增益压缩)

有点不同,因为您的削波是由非确定性过程引起的,因为当信号加上随机噪声超过阈值时,您的信号被削波,而不是确定性地减少模拟信号的设备。我有一个吉他踏板可以做到这一点,它可以柔化弹奏电吉他的“冲击力”:

Keeyley 压缩机演示

似乎是一个不错的类比。我不确定统计界是否有名字。

我怀疑您遇到了稳定的非对称分布系列。
首先,在对数图中绘制您的 ecdf。采用参数化方法,假设帕累托分布, 在此处输入图像描述

您的情况下的 cdf 被翻译为Ft(t)=1(tmint)a for t>tmin, 在哪里 tmin是算法的最短完成时间,因此阈值出现在 ecdf 图的
左侧你有,找出α^,即所谓的帕累托指数。

帕累托指数必须大于 1,它给出并解释了分布的重“尾”,有多少数据跨在边缘上。越接近 1,您的致病情况就越多。
换句话说,α表示节点花费可忽略不计的时间与节点在完成之前花费过多时间的比率。以前的读者指出了您突然终止实验的事实,这引入了一种复杂的情况,描述为α^=α^(T). 我建议你应该改变T探索这种依赖性。

重尾现象在计算机科学中很常见,特别是当节点以随机方式与共享资源竞争时,例如计算机网络。

说你的分布被截断了,就像被截断的正常