如何从 R 中的模拟结果中进行连续分布?

机器算法验证 r 分布 模拟
2022-04-10 07:07:44

我在大约 75,000 个数据点的数据集上运行了 10,000 个随机样本(每个 910 个数据点)。我想对此进行连续分布,以便我可以测试获得基于理论问题的特定非随机样本结果的概率。

对于每个随机样本(以及“真实”样本),我收集了命中数、命中 + 未命中数(这个数字因我认为不重要的原因而有所不同)以及命中的相对频率(命中/命中+未命中)。

理想情况下,我想将相对频率转换为连续分布(我假设它大致正常),这样我就可以看到“真实”相对频率的可能性有多大(使用简单的东西,比如T 检验)。但我不知道该怎么做。

另一方面,有没有更简单的方法来测试获得我的实际结果的概率,只是给定每个随机样本的结果的长文件?

我认为有某种 R 函数可以使这变得相当简单。有什么提示吗?

2个回答

听起来您所描述的是自举模拟,以估计统计数据的分布(相对频率)。

我建议您查看的包是引导包:

来自 AC Davison 和 DV Hinkley (1997, CUP) 的“Bootstrap Methods and their Applications”一书的引导函数和数据集。

它应该包含您正在尝试做的事情(在我看来)所需的许多功能。

这里有一些关于引导包的教程

最好的,塔尔

听起来您想要分布的内核密度估计之类的东西。在 RI 中认为你想要密度函数。