拟合离散分布的方法
有三种主要方法*用于拟合(估计参数)离散分布。
这会找到最有可能提供样本的参数值(给定其他假设,如独立性、常数参数等)
这会找到使前几个总体时刻与您的样本时刻相匹配的参数值。这通常很容易做到,并且在许多情况下会产生相当合理的估计量。它有时也用于为 ML 例程提供起始值。
这最小化了离散分布上的拟合统计量的卡方优度,尽管有时对于较大的数据集,为了方便起见,可能会合并最终类别。它通常工作得很好,甚至可以说在特定情况下它比 ML 有一些优势,但通常它必须迭代到收敛,在这种情况下,大多数人往往更喜欢 ML。
前两种方法也用于连续分布;在这种情况下,通常不使用第三个。
这些绝不是一个详尽的列表,例如,通过最小化 KS 统计量来估计参数是很有可能的——甚至(如果你调整离散性),如果你是如此倾向。由于您在 R 中工作,因此对于负二项式很容易实现 ML 估计。如果您的样本在 中x
,则很简单library(MASS);fitdistr (x,"negative binomial")
:
> library(MASS)
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
size mu
3.6200839 6.3701156
(0.8033929) (0.4192836)
这些是参数估计及其(渐近)标准误差。
在泊松分布的情况下,MLE 和 MoM 都在样本均值处估计泊松参数。
如果您想查看示例,您应该发布一些实际计数。请注意,您的直方图已使用选择的 bin 完成,以便将 0 和 1 类别组合在一起,并且我们没有原始计数。
据我猜测,您的数据大致如下:
Count: 0&1 2 3 4 5 6 >6
Frequency: 311 197 74 15 3 1 0
但是大数字将是不确定的(这在很大程度上取决于低计数由其条形高度的像素计数表示的准确程度)并且可能是这些数字的倍数,例如这些数字的两倍(原始计数影响标准错误,所以它们是关于这些值还是两倍大很重要)
前两组的组合使它有点尴尬(有可能这样做,但如果你组合一些类别就不那么简单了。很多信息都在前两组中,所以最好不要让默认直方图将它们混为一谈)。
* 其他拟合离散分布的方法当然是可能的(例如,可以匹配分位数或最小化其他拟合优度统计)。我提到的那些似乎是最常见的。