模拟分布

机器算法验证 分布 模拟
2022-03-16 20:18:41

我正在从事容量规划任务,并且已经阅读了一些书籍。这是专门关于分布的。我用R。

  1. 识别我的数据分布的推荐方法是什么?有统计方法可以识别吗?

我有这张图。

概率方法:情景分析、决策树和模拟

  1. 使用 R 可以使用哪些模拟方法?在这里,我想为某个分布(如指数)生成数据。如果我想将 r-java 与 Java 集成,它是正确的方法吗?

  2. 当我为特定分布传输数据时,有没有办法预测影响(CPU 使用率等)的分布?发送某些分布的数据有什么不同的影响?

请把这些当作初学者的问题。是否有处理这些类型模拟的书籍或材料?

笔记

该图来自论文http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf的末尾。

我遇到的合身技术

拟合优度评估

  1. 卡方
  2. 科尔莫哥洛夫-斯米尔诺夫,
  3. Anderson-Darling 统计密度、cdf、PP 和 QQ 图

如果我发现我的分布是正态分布或指数分布等,我不确定应该如何解释或下一步。它允许我做什么?预言?希望这个问题很清楚。

根据我的 Neil Gunther 的容量规划书,指数延迟将导致队列波动。所以我知道这一点。

1个回答

我将回答您关于 R 模拟的观点,因为这是我唯一熟悉的。R 有很多可以模拟的内置分布。命名的逻辑是模拟一个名为disname的分布rdis

下面是我最常用的

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

您可以在使用 R 拟合分布中找到一些补充

补充:感谢@jthetzel 提供了一个完整的发行版列表和它们所属的包的链接。

但是等等,还有更多:好的,在@whuber 的评论之后,我将尝试解决其他问题。关于第 1 点,我从不采用拟合优度方法。相反,我总是考虑信号的起源,比如是什么导致了这种现象,产生它的原因是否存在一些自然的对称性等等。你需要几本书的章节来涵盖它,所以我只举两个例子。

  1. 如果数据是计数并且没有上限,我尝试泊松。泊松变量可以解释为一个时间窗口内连续独立的计数,这是一个非常通用的框架。我拟合分布并(通常在视觉上)查看方差是否得到了很好的描述。很多时候,样本的方差要高得多,在这种情况下,我使用负二项式。负二项式可以解释为泊松与不同变量的混合,这甚至更一般,因此这通常非常适合样本。

  2. 如果我认为数据围绕均值对称,偏差同样可能为正或负,我尝试拟合高斯。然后我检查(再次直观地)是否有很多异常值,数据点离平均值很远。如果有,我使用学生 t 代替。学生的 t 分布可以解释为具有不同方差的高斯混合,这又是非常普遍的。

在那些例子中,当我说视觉时,我的意思是我使用QQ 图

第3点,也值得几本书的章节。使用一个分布而不是另一个分布的效果是无限的。因此,我将继续上面的两个示例,而不是全部进行。

  1. 在我早期,我不知道负二项式可以有一个有意义的解释,所以我一直使用泊松(因为我喜欢能够用人类术语来解释参数)。很多时候,当您使用泊松时,您可以很好地拟合均值,但您低估了方差。这意味着您无法重现样本的极值,并且您会将这些值视为异常值(与其他点分布不同的数据点),而实际上并非如此。

  2. 同样在我早期的时候,我不知道学生的 t 也有一个有意义的解释,我会一直使用高斯。类似的事情发生了。我会很好地拟合均值和方差,但我仍然不会捕获异常值,因为几乎所有数据点都应该在均值的 3 个标准差范围内。同样的事情发生了,我得出的结论是有些点是“非凡的”,而实际上并非如此。