机器算法验证 - 模拟分布 - 吾爱随笔录

模拟分布

机器算法验证分布模拟

2022-03-16 20:18:41

我正在从事容量规划任务，并且已经阅读了一些书籍。这是专门关于分布的。我用R。

识别我的数据分布的推荐方法是什么？有统计方法可以识别吗？

我有这张图。

概率方法：情景分析、决策树和模拟

使用 R 可以使用哪些模拟方法？在这里，我想为某个分布（如指数）生成数据。如果我想将 r-java 与 Java 集成，它是正确的方法吗？
当我为特定分布传输数据时，有没有办法预测影响（CPU 使用率等）的分布？发送某些分布的数据有什么不同的影响？

请把这些当作初学者的问题。是否有处理这些类型模拟的书籍或材料？

笔记

该图来自论文http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf的末尾。

我遇到的合身技术

拟合优度评估

卡方
科尔莫哥洛夫-斯米尔诺夫，
Anderson-Darling 统计密度、cdf、PP 和 QQ 图

如果我发现我的分布是正态分布或指数分布等，我不确定应该如何解释或下一步。它允许我做什么？预言？希望这个问题很清楚。

根据我的 Neil Gunther 的容量规划书，指数延迟将导致队列波动。所以我知道这一点。

1个回答

我将回答您关于 R 模拟的观点，因为这是我唯一熟悉的。R 有很多可以模拟的内置分布。命名的逻辑是模拟一个名为disname的分布rdis。

下面是我最常用的

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

您可以在使用 R 拟合分布中找到一些补充。

补充：感谢@jthetzel 提供了一个完整的发行版列表和它们所属的包的链接。

但是等等，还有更多：好的，在@whuber 的评论之后，我将尝试解决其他问题。关于第 1 点，我从不采用拟合优度方法。相反，我总是考虑信号的起源，比如是什么导致了这种现象，产生它的原因是否存在一些自然的对称性等等。你需要几本书的章节来涵盖它，所以我只举两个例子。

如果数据是计数并且没有上限，我尝试泊松。泊松变量可以解释为一个时间窗口内连续独立的计数，这是一个非常通用的框架。我拟合分布并（通常在视觉上）查看方差是否得到了很好的描述。很多时候，样本的方差要高得多，在这种情况下，我使用负二项式。负二项式可以解释为泊松与不同变量的混合，这甚至更一般，因此这通常非常适合样本。
如果我认为数据围绕均值对称，即偏差同样可能为正或负，我尝试拟合高斯。然后我检查（再次直观地）是否有很多异常值，即数据点离平均值很远。如果有，我使用学生 t 代替。学生的 t 分布可以解释为具有不同方差的高斯混合，这又是非常普遍的。

在那些例子中，当我说视觉时，我的意思是我使用QQ 图

第3点，也值得几本书的章节。使用一个分布而不是另一个分布的效果是无限的。因此，我将继续上面的两个示例，而不是全部进行。

在我早期，我不知道负二项式可以有一个有意义的解释，所以我一直使用泊松（因为我喜欢能够用人类术语来解释参数）。很多时候，当您使用泊松时，您可以很好地拟合均值，但您低估了方差。这意味着您无法重现样本的极值，并且您会将这些值视为异常值（与其他点分布不同的数据点），而实际上并非如此。
同样在我早期的时候，我不知道学生的 t 也有一个有意义的解释，我会一直使用高斯。类似的事情发生了。我会很好地拟合均值和方差，但我仍然不会捕获异常值，因为几乎所有数据点都应该在均值的 3 个标准差范围内。同样的事情发生了，我得出的结论是有些点是“非凡的”，而实际上并非如此。

其它你可能感兴趣的问题

上一篇为什么 Anova( ) 和 drop1( ) 为 GLMM 提供了不同的答案？下一篇关于使用二元组（N-gram）模型为文本文档构建特征向量