PP 图与 QQ 图

机器算法验证 可能性 数据可视化 拟合优度 QQ图
2022-01-16 11:27:46

在尝试分析数据的拟合分布时,概率图、PP 图和 QQ 图有什么区别?

2个回答

正如@vector07 所指出的,概率图是更抽象的类别,pp-plots 和 qq-plots 是其中的成员。因此,我将讨论后两者之间的区别。理解这些差异的最好方法是考虑它们是如何构造的,并了解您需要识别分布的分位数与达到给定分位数时所通过的分布比例之间的差异。您可以通过绘制分布的累积分布函数(CDF)来查看它们之间的关系。例如,考虑标准正态分布:

在此处输入图像描述

我们看到大约 68% 的 y 轴(红线之间的区域)对应于 1/3 的 x 轴(蓝线之间的区域)。这意味着当我们使用我们通过的分布的比例来评估两个分布之间的匹配时(即,我们使用 pp-plot),我们将在分布的中心获得很多分辨率,但在尾巴。另一方面,当我们使用分位数来评估两个分布之间的匹配时(即,我们使用 qq 图),我们将在尾部获得非常好的分辨率,但在中心处则更少。(因为数据分析师通常更关心分布的尾部,这将对推理产生更大的影响,例如,qq-plots 比 pp-plots 更常见。)

为了了解这些事实的实际效果,我将介绍 pp-plot 和 qq-plot 的构建过程。(我还口头/更慢地在这里完成了 qq-plot 的构建:QQ-plot does not match histogram。)我不知道你是否使用 R,但希望它是不言自明的:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

在此处输入图像描述

不幸的是,这些图并不是很有特色,因为数据很少,而且我们正在将真正的正态与正确的理论分布进行比较,因此在分布的中心或尾部都没有什么特别之处。为了更好地展示这些差异,我绘制了具有 4 个自由度的(肥尾)t 分布,以及下面的双峰分布。胖尾在 qq 图中更加独特,而双模态在 pp 图中更加独特。

在此处输入图像描述 在此处输入图像描述

这是来自v8doc.sas.com的定义:

PP 图将数据集的经验累积分布函数与指定的理论累积分布函数 F(·) 进行比较。QQ 图将数据分布的分位数与来自指定分布族的标准化理论分布的分位数进行比较。

在文中,他们还提到:

  • 关于 PP 图和 QQ 图的构建和解释方式的差异。
  • 在比较经验分布和理论分布方面,使用一种或另一种的优点。

参考

SAS Institute Inc.,SAS OnlineDoc®,第 8 版,北卡罗来纳州卡里:SAS Institute Inc.,1999