我的数据集包含两个(相当强相关的)变量(算法的运行时)和(检查节点的数量,无论如何)。两者在设计上是强相关的,因为算法可以粗略地管理每秒节点数。
该算法在几个问题上运行,但如果在超时后仍未找到解决方案,则该算法被终止. 所以数据在时间变量上被右删失。
我绘制变量的估计累积密度函数(或累积计数)对于算法确实终止的情况. 这表明最多可以通过扩展解决多少问题节点,对于比较算法的不同配置很有用。但在剧情中,顶部有那些有趣的尾巴,如下图所示。比较变量的 ecdf, 对其进行了审查。
累计数
累计数
模拟
我理解为什么会发生这种情况,并且可以使用以下R代码在模拟中重现该效果。这是由于在添加一些噪声的情况下对强相关变量进行审查造成的。
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
这种现象怎么称呼? 我需要在出版物中声明这些粉丝是实验的产物,并不反映真实的分布。