这个 QQ 图使用什么分布?

机器算法验证 分布 QQ图
2022-03-16 17:13:54

我有一个数据集,我针对N(0,1)分配。该情节包括在下面。

我的统计数据至少可以说是生疏了(这意味着我现在所掌握的一点知识都已经生锈了!)显然正态分布并不适合——我的数据中的尾部比正态分布中的尾部更重。但相对于正态分布,数据似乎没有倾斜。

那么,哪种分布可能更合适?像 Box-Cox 这样的转变是否可以治愈以使其更适合?

编辑:

我的数据并不是严格意义上的正数,所以 Box-Cox 出局了……但可能还有另一种有效的转换。

编辑2:

我有越来越大的数据集,我需要看看数据集收敛到什么(如果有的话)。这是探索性分析,我宁愿找到适合数据的分布,也不愿将数据转换为分布。所有这些都是使用 SciPy 完成的,它将有偏峰度的渐近值报告为 -1,偏度报告为 0。

但我不知道如何使用这些信息来确定这可能是哪个分布,除了检查所有分布以查看哪些分布更好r2.

编辑3:

根据 gung 的评论,我根据均匀分布对其进行了检查:

果然,这要好得多,尽管尾部仍然有所不同。

1个回答

我会把我的评论变成答案;如果需要,我可以删除它或添加更多。

根据您最初的 qq 图,在我看来,您的分布的尾部可能太短了——至少相对于正态分布而言。(这是基于我的解释,即数据值在 Y 轴“有序值”上,理论分位数在 X 轴上。)因此,明显的对称性和中间的轻微弯曲,我想知道它是否可能是均匀分布或类似的东西。我在这里讨论了 qq-plots 的解释:qq-plot does not match histogram

编辑 2指出峰度为1. 我喜欢这个资源来思考峰度,它指出峰度不能低于1,因此 SciPy 给了您过多的峰度(即峰度 - 3)。峰度的Wikipedia 页面将均匀分布的峰度列为1,这与我对 qq-plot 的猜测一致。

编辑 3发布了一个针对制服的 qq-plot,这很合身,但尾巴现在似乎有点太重了。值得注意的是,均匀分布实际上是beta 分布的一个特例,其中参数为(1,1). 因此,您的 beta 可能非常接近 (1,1),但实际上并不完全 (1,1)(即,不完全一致)。就像是(.9,.9),可以作为初步猜测。当然,这种预感的有效性取决于你有多少数据来判断这种细微的差异是否可靠。你可以在这个优秀的线程中阅读更多关于 beta 分布的信息:what-is-intuition-behind-beta-distribution