机器算法验证 - 删失数据的估计 CDF 图上的现象名称 - 吾爱随笔录

删失数据的估计 CDF 图上的现象名称

机器算法验证生存累积分布函数审查

2022-03-24 18:57:10

我的数据集包含两个（相当强相关的）变量 $t$ （算法的运行时）和 $n$ （检查节点的数量，无论如何）。两者在设计上是强相关的，因为算法可以粗略地管理 $c$ 每秒节点数。

该算法在几个问题上运行，但如果在超时后仍未找到解决方案，则该算法被终止 $T$ . 所以数据在时间变量上被右删失。

我绘制变量的估计累积密度函数（或累积计数） $n$ 对于算法确实终止的情况 $t<T$ . 这表明最多可以通过扩展解决多少问题 $n$ 节点，对于比较算法的不同配置很有用。但在剧情中 $n$ ，顶部有那些有趣的尾巴，如下图所示。比较变量的 ecdf $t$ , 对其进行了审查。

累计数 $n$

n 的 ecdf

累计数 $t$

t 的 ecdf

模拟

我理解为什么会发生这种情况，并且可以使用以下R代码在模拟中重现该效果。这是由于在添加一些噪声的情况下对强相关变量进行审查造成的。

qplot(
  Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
         runif(10000,0,10)),
  stat="ecdf",geom="step")

合成数据

这种现象怎么称呼？ 我需要在出版物中声明这些粉丝是实验的产物，并不反映真实的分布。

3个回答

我不是专家，但我相信您所看到的类似于软剪辑。

排序裁剪（增益压缩）

有点不同，因为您的削波是由非确定性过程引起的，因为当信号加上随机噪声超过阈值时，您的信号被削波，而不是确定性地减少模拟信号的设备。我有一个吉他踏板可以做到这一点，它可以柔化弹奏电吉他的“冲击力”：

Keeyley 压缩机演示

似乎是一个不错的类比。我不确定统计界是否有名字。

我怀疑您遇到了稳定的非对称分布系列。
首先，在对数图中绘制您的 ecdf。采用参数化方法，假设帕累托分布，在此处输入图像描述

您的情况下的 cdf 被翻译为 $F_t(t)=1-(\frac{t_{min}}{t})^a \ for \ t>t_{min}$ ，在哪里 $t_{min}$ 是算法的最短完成时间，因此阈值出现在 ecdf 图的
左侧你有，找出 $\hat{\alpha}$ ，即所谓的帕累托指数。

帕累托指数必须大于 1，它给出并解释了分布的重“尾”，有多少数据跨在边缘上。越接近 1，您的致病情况就越多。
换句话说， $\alpha$ 表示节点花费可忽略不计的时间与节点在完成之前花费过多时间的比率。以前的读者指出了您突然终止实验的事实，这引入了一种复杂的情况，描述为 $\hat{\alpha}=\hat{\alpha}(T)$ . 我建议你应该改变 $T$ 探索这种依赖性。

重尾现象在计算机科学中很常见，特别是当节点以随机方式与共享资源竞争时，例如计算机网络。

说你的分布被截断了，就像被截断的正常

其它你可能感兴趣的问题

上一篇通用逼近定理——神经网络下一篇从 tbats 模型模拟预测样本路径

删失数据的估计 CDF 图上的现象名称

累计数nnn

累计数ttt

模拟

累计数 $n$

累计数 $t$