如何解释 QQ 图中的示例集包括您问题中的基本形状。即,点线的末端相对于中间逆时针转动。假设样本分位数(即您的数据)在 y 轴上,而来自标准正态的理论分位数在 x 轴上,这意味着您的分布尾部比您从真正的正态看到的要胖。换句话说,如果数据生成过程实际上是正态分布,那么这些点比您预期的要远得多。
有很多分布是对称的,并且尾部比正常分布更粗。我经常会从看t-distributions,因为它们很好理解,并且您可以通过调节自由度参数来调整尾巴的“肥度”。您的示例值得注意的是,中间非常直,两端也非常直并且彼此大致平行,中间有相当尖锐的角。这表明您混合了两个具有相同均值但不同标准差的分布。我可以使用以下代码在 R 中很容易地生成一个看起来与您的非常相似的图:
set.seed(646) # this makes the example exactly reproducible
s = 4 # this is the ratio of SDs
x = c(rnorm(11600, mean=0, sd=1), # 99.7% of the data come from the 1st distribution
rnorm( 400, mean=0, sd=s)) # small fraction comes from 2nd dist w/ greater SD
qqnorm(x) # a basic qq-plot
确定混合比例和相对 SD 的更好方法是拟合高斯混合模型。在 R 中,这可以通过Mclust 包完成,尽管任何体面的统计软件都应该能够做到。我在回答如何测试我的分布是否为多模式?
您也可以简单地将残差的一些箱线图作为分类变量的函数,单独或以指定的组合。很可能很容易找到异方差性,并对您的数据产生有意义的见解。
正如@COOLserdash指出的那样,出于统计推断的目的,我不会担心这一点,尽管如果您可以识别出异构子组,则可以使用加权最小二乘对数据进行建模。出于预测的目的,平均预测应该不受此影响,但基于正态性的预测区间将不正确并产生“黑天鹅”并偶尔会导致问题。只要你不让全球金融体系崩溃,它可能不会那么糟糕。您可以使预测间隔更宽,或者您可以再次对其进行建模,尤其是在子组可识别的情况下。