我在我的数据上使用 R 运行了一个 QQ 图
par(mfrow=c(1,2))
par(pty="s")
qqnorm(TEDS$LST1); qqline(TEDS$LST1)
这给了我这个:

数据的直方图显示向左倾斜,但我不知道如何解释 QQ 图。为什么数据点沿线聚集?底部的直尾是否表示我在直方图中看到的左偏?
我在我的数据上使用 R 运行了一个 QQ 图
par(mfrow=c(1,2))
par(pty="s")
qqnorm(TEDS$LST1); qqline(TEDS$LST1)
这给了我这个:

数据的直方图显示向左倾斜,但我不知道如何解释 QQ 图。为什么数据点沿线聚集?底部的直尾是否表示我在直方图中看到的左偏?
该QQ图具有以下显着特点:
阶梯模式,其中仅获得特定的分离高度(“样本分位数”),显示数据值是离散的。 几乎所有数字都是从 3 美元到 21 美元的整数。出现几个半整数。显然发生了某种形式的舍入。
因为极端的“理论分位数”在 (大约),所以必须显示大约 的数据。 这是因为对于如此多的正态分布数据的极端情况,其 Z 分数约为 。(这个 1400 美元的估计是粗略的,但它在正确的范围内。)
至少 3 美元有大量的价值,远远超过任何其他价值。 这是左删失的特征,即任何小于阈值 () 的值都被一个小于该阈值的指标替换——并且,出于绘图目的,所有这些值都绘制在阈值处。(有关审查对概率图的作用的更多信息,请参阅https://stats.stackexchange.com/a/30749上的分析。)
除了 3 美元的“尖峰”之外,其余点都非常接近于对角线参考线。这表明剩余的数据与正态分布并不太远。
但是,仔细观察会发现,剩余点最初略低于参考线(对于 $5$ 和 $10$ 之间的值),然后稍微大于(对于 $13$ 和 $20$ 之间的值),然后返回到最后的线(价值 21 美元)。 这种“曲率”表示某种形式的非正态性。 and ) and then slightly greater (for values between and ) before returning to the line at the end (value ).
这种特殊的曲率与开始遵循极值分布的数据一致。具体来说,考虑以下数据生成机制:
收集$k\ge 1$ 个独立的、同分布的正态变量并只保留其中最大的一个。 independent, identically distributed Normal variates and retain just the largest of them.
这样做 $n = 1400$ 次。 times.
以 3 美元的阈值对数据进行左审查。.
将它们的值记录到小数点后两位或三位。
将值四舍五入到最接近的整数 - 但不要将任何恰好是半整数的值四舍五入(即以 $.500$ 结尾)。).
如果我们设置 $k=50$ 左右,并将这些基础正态变量的均值和标准差调整为 $\mu = -10$ 和 $\sigma = 7.5$,我们可以生成这个 QQ 图的随机版本,并且大多数其中几乎与它没有区别。(这是一个非常粗略的估计;$k$ 可能介于 $8$ 和 $200$ 左右,并且 $k$ 的不同值必须与 $\mu$ 和 $\sigma$ 的不同值相匹配。)这是我制作的前六个这样的版本: or thereabouts and adjust the mean and standard deviation of those underlying Normal variates to be and , we can produce random versions of this QQ plot and most of them are practically indistinguishable from it. (This is an extremely rough estimate; could be anywhere between and or so, and different values of would have to be matched with different values of and .) Here are the first six such versions I produced:

你对这种解释所做的事情取决于你对数据的理解以及你想从中学到什么。我并没有声称这些数据实际上是以这种方式创建的,而只是说它们的分布与这种方式非常相似。
这是R重现该图形的代码(如果您愿意,可以生成更多类似的图形)。
k <- 50
mu <- -10
sigma <- 7.5
threshold <- 3
n <- 1400
#
# Round most values to the nearest integer, occasionally
# to a half-integer.
#
rnd <- function(x, prec=300) {
y <- round(x * prec) / prec
ifelse(2*y == floor(2*y), y, round(y))
}
q <- c(0.25, 0.95) # Used to draw a reference line
par(mfcol=c(2,3))
set.seed(17)
invisible(replicate(6, {
# Generate data
z <- apply(matrix(rnorm(n*k), k), 2, max) # Max-normal distribution
y <- mu + sigma * z # Scale and recenter it
x <- rnd(pmax(y, threshold)) # Censor and round the values
# Plot them
qqnorm(x, cex=0.8)
m <- median(x)
s <- diff(quantile(x, q)) / diff(qnorm(q))
abline(c(m, s))
#hist(x) # Histogram of the data
#qqnorm(y) # QQ plot of the uncensored, unrounded data
}))
(正如 Nick Cox 还建议的那样)分布是右偏和离散的,但在 3 处尖峰的右侧,大致类似于在 -1 以下截断的标准法线(即右偏),但右尾较短。
我对下图做了一些额外的评论:

这是一个频率图(一个示例 pmf),它会产生一个与您的大致相似的 QQ 图:

您的数据呈正偏态,即向右偏斜。“右”或“左”是分布中更长、更伸展的尾部的问题。该术语假定您正在(想象)查看具有水平幅度尺度的传统直方图。
但很明显,你有 3 到 21 之间的整数值,因此看起来不规则的楼梯,除了有 4.5 之类的值。你在 3 处有一个明显的峰值:这对你来说并不奇怪,但我们不能告诉你为什么。同样,如果这些是计数,那么缺少 0、1 和 2 可能(或可能不)值得评论。
然而,作为尖峰的副作用,偏度的数值测量可能是负面的。
这些数值让人联想到大多数学生表现不佳的考试成绩,但很少有人完全糟糕,一些混乱的答案引起了妥协。
数据中相同的值必须绘制在 $y$ 轴上不同级别的相同水平级别。来自真实高斯分布的相同大小样本的平均值都是不同的,因此 $x$ 轴上的值必须是不同的。 axis. The average over samples of the same size from a true Gaussian distribution would all be distinct, so the values on the axis must be distinct.
仅峰值就意味着您不能将此分布称为“正常”。如果你认为这种分布是正常的,你需要重新审视你的想法。