我将回答您关于 R 模拟的观点,因为这是我唯一熟悉的。R 有很多可以模拟的内置分布。命名的逻辑是模拟一个名为dis
name的分布rdis
。
下面是我最常用的
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
您可以在使用 R 拟合分布中找到一些补充。
补充:感谢@jthetzel 提供了一个完整的发行版列表和它们所属的包的链接。
但是等等,还有更多:好的,在@whuber 的评论之后,我将尝试解决其他问题。关于第 1 点,我从不采用拟合优度方法。相反,我总是考虑信号的起源,比如是什么导致了这种现象,产生它的原因是否存在一些自然的对称性等等。你需要几本书的章节来涵盖它,所以我只举两个例子。
如果数据是计数并且没有上限,我尝试泊松。泊松变量可以解释为一个时间窗口内连续独立的计数,这是一个非常通用的框架。我拟合分布并(通常在视觉上)查看方差是否得到了很好的描述。很多时候,样本的方差要高得多,在这种情况下,我使用负二项式。负二项式可以解释为泊松与不同变量的混合,这甚至更一般,因此这通常非常适合样本。
如果我认为数据围绕均值对称,即偏差同样可能为正或负,我尝试拟合高斯。然后我检查(再次直观地)是否有很多异常值,即数据点离平均值很远。如果有,我使用学生 t 代替。学生的 t 分布可以解释为具有不同方差的高斯混合,这又是非常普遍的。
在那些例子中,当我说视觉时,我的意思是我使用QQ 图
第3点,也值得几本书的章节。使用一个分布而不是另一个分布的效果是无限的。因此,我将继续上面的两个示例,而不是全部进行。
在我早期,我不知道负二项式可以有一个有意义的解释,所以我一直使用泊松(因为我喜欢能够用人类术语来解释参数)。很多时候,当您使用泊松时,您可以很好地拟合均值,但您低估了方差。这意味着您无法重现样本的极值,并且您会将这些值视为异常值(与其他点分布不同的数据点),而实际上并非如此。
同样在我早期的时候,我不知道学生的 t 也有一个有意义的解释,我会一直使用高斯。类似的事情发生了。我会很好地拟合均值和方差,但我仍然不会捕获异常值,因为几乎所有数据点都应该在均值的 3 个标准差范围内。同样的事情发生了,我得出的结论是有些点是“非凡的”,而实际上并非如此。