QQ图与直方图不匹配

机器算法验证 数据可视化 正态假设 直方图 QQ图
2022-01-30 03:29:30

我有一个直方图、核密度和金融对数回报的拟合正态分布,它们被转换为损失(符号改变),以及这些数据的正态 QQ 图:

http://tinypic.com/r/34ocwvr/6

QQ 图清楚地表明尾部没有正确拟合。但是如果我看一下直方图和拟合的正态分布(蓝色),即使是 0.0 左右的值也没有正确拟合。所以 QQ 图显示只有尾部没有正确拟合,但显然整个分布没有正确拟合。为什么这在QQ情节中没有出现?

2个回答

对@NickSabbe +1,因为'情节只是告诉你“有问题”',这通常是使用 qq-plot 的最佳方式(因为很难理解如何解释它们)。但是,可以通过思考如何制作一个 qq 图来学习如何解释一个 qq 图。

您将从对数据进行排序开始,然后从最小值开始计数,将每个数据作为相等的百分比。例如,如果您有 20 个数据点,当您计算第一个(最小值)时,您会对自己说,“我计算了 5% 的数据”。您将遵循此过程直到完成,此时您将通过 100% 的数据。然后可以将这些百分比值与来自相应理论正常值的相同百分比值(即,具有相同平均值和 SD 的正常值)进行比较。

当您绘制这些图时,您会发现最后一个值(即 100%)有问题,因为当您通过 100% 的理论正常值时,您“处于”无穷大。在计算百分比之前,通过在数据中的每个点向分母添加一个小常数来解决此问题。一个典型的值是在分母上加 1;例如,您可以将第一个(共 20 个)数据点称为 1/(20+1)=5%,最后一个数据点为 20/(20+1)=95%。 现在,如果您根据相应的理论法线绘制这些点,您将有一个pp-plot(用于根据概率绘制概率)。这样的图很可能会显示您的分布与分布中心的正态之间的偏差。这是因为 68% 的正态分布位于 +/- 1 SD 范围内,因此 pp-plot 在此处具有出色的分辨率,而在其他地方具有较差的分辨率。(有关这一点的更多信息,在这里阅读我的答案可能会有所帮助:PP-plots vs. QQ-plots。)

通常,我们最关心的是分布尾部发生了什么。为了在那里获得更好的分辨率(因此中间的分辨率更差),我们可以构建一个qq-plot来代替。我们通过获取我们的一组概率并将它们传递给正态分布的 CDF 的倒数来做到这一点(这就像向后阅读统计书背面的 z 表——你读一个概率并读出一个 z-分数)。此操作的结果是两组分位数,它们可以类似地相互绘制。

@whuber 是正确的,之后(通常)通过找到穿过中间 50% 点(即从第一个四分位数到第三个四分位数)的最佳拟合线来绘制参考线。这样做是为了使情节更易于阅读。使用这条线,您可以将该图解释为向您显示当您移动到尾部时,您的分布的分位数是否逐渐偏离真实正态。(请注意,远离中心的点的位置并不是真正独立于靠近的点;因此,在您的特定直方图中,尾部似乎在“肩膀”不同后聚集在一起并不意味着分位数现在又一样了。)

您可以通过考虑从轴读取的值比较给定绘图点来分析解释 qq 图。如果数据由正态分布很好地描述,则值应该大致相同。例如,取最左下角的极值点:它的x价值在过去的某个地方3, 但它的y价值只是一点点过去.2,所以它比“应该”要远得多。一般来说,解释 qq 图的一个简单规则是,如果给定的尾部从参考线逆时针扭曲,则分布的尾部中数据比理论正态分布中的数据多,并且如果尾部顺时针扭曲是分布尾部的数据少于理论正态分布的数据。换句话说:

  • 如果两条尾巴都逆时针扭转,则尾巴很重(leptokurtosis),
  • 如果两条尾巴都顺时针扭转,你有轻尾巴(platykurtosis),
  • 如果你的右尾巴逆时针扭转,而你的左尾巴顺时针扭转,你就有右斜
  • 如果你的左尾巴逆时针扭转,而你的右尾巴顺时针扭转,你有左歪斜

简单地说:QQ 图显示了经验分布与预期分布相比的排名。在您的情况下(实际上经常出现这种情况;始终具有对称分布),靠近中间的等级在预期和经验之间将相似,因此,QQ 图接近那里的线。

根据它们在 QQ 图中的位置来实际识别“奇怪”的观察结果并不是那么简单:该图只是告诉您“出了点问题”,如果您对数据/分布有更多了解,您可能会发现问题出在哪里。