数据:
出于本问题/交流的目的,我们可以假设数据看起来像rnbinom(1000,size=0.1,prob=0.01)
R 中的数据,它从负二项分布(size=0.1
成功概率和概率prob=0.01
)生成 1,000 个观察值的随机样本。这是参数化,其中随机变量表示size
成功次数之前的失败次数。尾巴很长,1000 次观察并不是很多数据。
问题: 我得到了一些数据({1,2,....} 上的整数)[见上文](1,500 个数据点),并要求我找到任何参数的“最佳拟合”分布和估计值。我对数据一无所知。我知道对于长尾数据来说,这不是一个非常大的样本。更多数据是可能的。
我所做的: 我考虑过通过将两个不同的分布拟合到数据中来使用似然比检验,但我认为这并不适用(例如,我无法确定适当的临界 p 值),除非这两个分布是嵌套的...
然后我考虑使用 Kolmogorov-Smirnov 检验(针对离散数据进行了调整),但无论如何,在 R 中,它抱怨它无法计算“有关系的数据”的 p 值。
在这种情况下,我测试/确定不同分布的拟合的最佳方法是什么?以下是我考虑过的其他一些事情:
- 要求(很多)更多数据。但这会有帮助吗?例如,我可以使用渐近结果吗?
- 考虑一些引导/重新采样/蒙特卡洛方案?如果是这样,是否有我可以/应该阅读的标准参考资料来学习如何正确地做到这一点?谢谢