我还能解释使用离散/舍入数据的 QQ 图吗?

机器算法验证 解释 离散数据 QQ图
2022-04-05 18:30:10

我有一个数据集,其中只有离散/四舍五入的值。结果,当我制作 QQ 图时,会出现“楼梯”模式。我还能像普通的 QQ 情节那样解释它吗,尽管这样做要困难得多?解释这样的情节有什么限制吗?

1个回答

正如您所说,楼梯模式是离散性不可避免的副作用,但这是唯一明显的限制。

否则,分位数 - 分位数图的规则仍然是偏离分布相同性由偏离分位数相等性来表示。

这里有一些愚蠢的例子。我模拟了一些泊松分布。在实践中,查看感兴趣的真实数据显然更有吸引力,但我在这里关注的是图形原理。首先,我展示了来自同一个父节点的两个样本,一个平均值为 3 的泊松。图中的一个细微差别是使用空心圆作为绘图符号以及点的抖动(添加随机噪声)来强调多对分位数在几个位置被过度绘制。等分线显示为对角线,这在分位数-分位数图上很常见。

在此处输入图像描述

作为一个小的变化,这里是一个来自均值 3 和均值 4 泊松的样本的分位数 - 分位数图。分布之间的不匹配是显而易见的。

在此处输入图像描述

这样的图形在任何开发良好的统计软件中都很容易,或者应该很容易。对于那些感兴趣的人,这里是用于开发上述示例的 Stata 代码:

clear 
set scheme s1color 
set seed 2803 
set obs 1000 
gen y3_1 = rpoisson(3)
label var y3_1 "Poisson mean 3, sample 1"
gen y3_2 = rpoisson(3)
label var y3_2 "Poisson mean 3, sample 2"
gen y4 = rpoisson(4) 
label var y3_2 "Poisson mean 3, sample 2"
qqplot y3*, jitter(2) ms(Oh) 
label var y4 "Poisson mean 4" 
qqplot y3_1 y4, jitter(2) ms(Oh) 

分位数-分位数图在转换尺度上通常也更好,但连续(或非舍入)变量也是如此。对于包含零的计数变量,平方根是最常见的,但立方根可能很有用。否则,对数仍然是正离散变量或舍入变量最有用的变换。

顺便说一句,分位数图也适用于离散和舍入数据。(对于单一分布,分位数图也可以被认为是具有标准均匀参考分布的分位数-分位数图:因此,等式参考线通常没有帮助。)

这是与 Stata 捆绑的汽车数据的显示:

在此处输入图像描述

这里有相当多的变量类型:报告为整数但所有不同的值,测量值但实际上高度四舍五入,有序比例(1..5),0或1的二进制变量等。自然分位数图从字面上采用任何数字编码,但除此之外,它们在显示已知为离散的变量和原则上连续但在实践中相当圆润的变量时是可理解的,甚至是信息丰富的。此处绘制的特定分位数图是为了最大化它们与箱线图的家族相似性,因为 0(.25)1 的累积概率标记在水平轴上,相应的值标记在垂直轴上。有关更多讨论,请参阅Cox, NJ 2012。轴实践,或图表上的位置。统计杂志 12:549-561