我有漂亮的钟形直方图 PDF 数据。然而,正态分布拟合(通过计算均值和方差)并不像下图那样工作。
我的问题是,如果有其他发行版,我应该根据您的经验尝试。换句话说,一个很好的钟形数据应该由哪个分布拟合,它不能很好地拟合正态分布。
我的最终目标是获得累积分布函数的近似分析形式来分析相应的概率。因此,任何有关解决此目标的建议都值得赞赏。
我包括数据(空格作为分隔符): Data to fit。
我有漂亮的钟形直方图 PDF 数据。然而,正态分布拟合(通过计算均值和方差)并不像下图那样工作。
我的问题是,如果有其他发行版,我应该根据您的经验尝试。换句话说,一个很好的钟形数据应该由哪个分布拟合,它不能很好地拟合正态分布。
我的最终目标是获得累积分布函数的近似分析形式来分析相应的概率。因此,任何有关解决此目标的建议都值得赞赏。
我包括数据(空格作为分隔符): Data to fit。
OP 提供的直方图给人的印象是数据是对称的。鉴于数据的峰值明显高于普通数据,并且如果数据大致对称,那么自然建议尝试 使用具有位置参数、尺度参数和自由度和 pdf f:
学生适合
下图显示了使用学生t的样本拟合,其中、和:
在图中:
红色虚线曲线是拟合的学生t pdf
波浪状的蓝色曲线是原始数据的经验 pdf(频率多边形)
从好的方面来说,使用提供的相同原始数据集,这似乎比 Normal 更适合。
在可能的不利方面,我不确定我是否会完全同意 OP 的开场白:“我的数据具有漂亮的钟形直方图 PDF”。特别是,如果仔细查看您的数据集(包含 100,000 个样本),最大值为 37.45,而最小值为 -910。而且,不只是一个大的负值,而是一大堆。这表明您的数据集不是对称的,而是负偏斜的......并且尾部还有其他事情发生,如果是这样,其他分布可能更适合。缩小,再次使用相同的 Student's t拟合,我们可以在左右尾部看到数据的这个特征:
简而言之:您的两个图显示出很大的差异,直方图中显示的最小值约为, 而 qqplot 显示的值下降到大约. 所有这些 lom-tailed 异常值大约占样本的 0.7%,但在 qqplot 中占主导地位。所以你需要问问自己是什么产生了这些异常值!这应该会指导您如何处理您的数据。如果我在去掉那个长尾之后再做一个qqplot,它看起来更接近正常,但并不完美。看看这些:
mean(Y)
[1] 3.9657
mean(Y[Y>= -30])
[1] 4.414797
但对标准差的影响更大:
sd(Y)
[1] 10.92237
sd(Y[Y>= -30])
[1] 8.006223
这解释了您的第一个图(直方图)的奇怪形式:您显示的拟合正态曲线受到您从图中省略的长尾的影响。
您可以尝试使用高斯混合,在 R 的 mclust 库中使用 Mclust 很容易。
图书馆(mclust)
mc.fit = Mclust(数据$V1)
摘要(mc.fit,参数=真)
这给出了一个三分量高斯混合(总共 8 个参数),具有分量
1: N(-69.269908, 6995.71627), p1 = 0.003970506
2: N(-4.314187, 171.76873), p2 = 0.115329209
3: N(5.380137, 46.26587), p3 = 0.880700285
对数似然是 -352620.4,您可以使用它来比较其他可能的拟合,例如建议的拟合。
左长尾被前两个组件捕获,尤其是第一个组件。
“x”处的累积分布估计为(R 形式)
p1*pnorm(x, -69.269908, sqrt(6995.71627)) + p2*pnorm(x, -4.314187, sqrt(171.76873)) + p3*pnorm(x, 5.380137, sqrt(46.26587))
我尝试了从 0.0001 到 0.9999 的各种分位数 (x),估计的准确性对我来说似乎是合理的。