使用 QQ 图而不是直方图的好处

机器算法验证 参考 直方图 分箱 QQ图
2022-02-14 13:50:29

此评论中,尼克考克斯写道:

分类是一种古老的方法。虽然直方图很有用,但现代统计软件使将分布拟合到原始数据变得容易且明智。Binning 只是丢弃了对于确定哪些分布是合理的至关重要的细节。

该评论的上下文建议使用 QQ 图作为评估拟合的替代方法。该声明听起来很合理,但我想知道支持该声明的可靠参考。除了简单的“嗯,这听起来很明显”之外,是否有一些论文对这一事实进行了更彻底的调查?对结果或类似的任何实际系统比较?

我还想看看 QQ 图相对于直方图的这种优势可以延伸到多大程度,适用于模型拟合以外的应用程序。关于这个问题的答案同意“QQ 图 [...] 只是告诉你“有问题”。我正在考虑将它们用作识别观察数据与空模型相比结构的工具,并想知道是否存在任何既定程序来使用 QQ 图(或其基础数据)不仅检测而且描述非随机观测数据中的结构。因此,包含该方向的参考文献将特别有用。

4个回答

这里的规范论文是:

  • Wilk、MB 和 R. Gnanadesikan。1968. 数据分析的概率绘图方法。生物计量学55:1-17

它仍然回报仔细和反复阅读。一个清晰的处理有许多很好的例子:

  • 克利夫兰,WS 1993。可视化数据。新泽西州萨米特:霍巴特出版社。

更值得一提的是:

  • 克利夫兰,WS 1994。图形数据的元素。新泽西州萨米特:霍巴特出版社。

包含对这种方法的合理曝光的其他文本包括:

  • 戴维森,AC 2003。统计模型。剑桥:剑桥大学出版社。
  • Rice, JA 2007。数理统计和数据分析。加利福尼亚州贝尔蒙特:达克斯伯里。

除此之外,我不知道您所要求的任何事情。一旦你看到了分位数 - 分位数图的要点,详细显示直方图是二流的替代方案似乎既不有趣也不有用,就像在桶里打鱼一样。

但我会这样总结:

  1. 分箱抑制了细节,而细节往往很重要。这不仅适用于尾部发生的事情,也适用于中间发生的事情。例如,粒度或多模态可能与偏度或尾部权重一样重要。

  2. 分箱需要关于分箱来源和分箱宽度的决策,这会极大地影响直方图的外观,因此很难看出什么是真实的,什么是选择的副作用。如果您的软件为您做出这些决定,那么问题仍然存在。(例如,通常设计默认的 bin 选择,以便您不使用“too many bins”,即出于稍微平滑的动机。)

  3. 比较两个直方图的图形和心理问题比判断一组点是否适合一条直线更棘手。

[2017 年 9 月 27 日添加] 4. 在考虑一个或多个转换比例时,分位数图可以很容易地变化。这里的变换是指非线性变换,而不是例如按最大值缩放或按(值)标准化-平均值)/标准差。如果分位数只是顺序统计,那么您需要做的就是应用转换,例如最大值的对数与对数的最大值相同,等等。(通常,往复会颠倒顺序。)即使您绘制基于两个顺序统计的选定分位数,通常它们只是在两个原始数据值之间进行插值,并且插值的影响通常很小。相比之下,对数或其他转换比例的直方图需要对 bin 原点和宽度做出新的决定,这并不是特别困难,但可能会很尴尬。密度估计也可以说是总结分布的一种方式。自然,您应用的任何转换都必须对数据有意义,因此对数只能有效地应用于正变量。

参见 William S. Cleveland 的作品。

可视化数据可能是最好的单一来源,但也可以查看他的网页,尤其是参考书目和 Visualizing Data 的页面(包括适用于在 中使用的 S+ 代码R)。

克利夫兰有很多原因为什么 QQ 图很好,为什么直方图不太好。

一旦你学会了如何使用它们,QQ 图可以让你识别偏度、重尾、一般形状、峰值等,人们倾向于使用直方图来尝试评估的相同类型的特征。

核密度估计或对数样条密度估计可以避免 Gala 在评论中指出的直方图的一些问题。

从那个链接考虑这个例子:

但是,除非您非常幸运,否则有时可能会在直方图甚至平滑密度估计(因为它们自然平滑)中遗漏未预料到的离散性,但在 QQ 图上通常会很明显。平滑密度估计 - 除非经过特殊处理 - 也可能会遇到有界变量的问题。

直方图和平滑密度估计都依赖于数据的近似值——这可能很有用——但也可能引入伪影或在某种程度上歪曲事实。

由于这个问题已经回到顶部......我看到许多反对直方图的论点支持 qqplots,但我并不完全相信。考虑这个例子:

x <- c(rnorm(10000, mean= 0), rnorm(10000, mean= 3))
par(mfrow= c(1, 2))
hist(x, breaks= 30)
qqnorm(x)

在此处输入图像描述

从直方图中很明显,有两个峰值,数据可能是两个正态分布的混合,平均值在 0 和 3 左右。就我个人而言,我很难从 qqplot 中理解相同的内容。也许这只是一个习惯问题......仍然很难向非专家解释qqplot。

另一方面,在此示例中,qqplot 突出显示了直方图中难以发现的与正态性的偏差:

set.seed(1234)
x <- c(rnorm(10000, mean= 0), rnorm(10, mean= 5), rnorm(10, mean= -5))
par(mfrow= c(1, 2))
hist(x, breaks= 30)
qqnorm(x)

在此处输入图像描述