qq-plot 可用于可视化两个分布的相似程度(例如,可视化分布与正态分布的相似性,也可用于比较两个 artibrary 数据分布)。是否有任何统计数据可以生成更客观的数值度量来表示它们的相似性(最好以标准化 (0 <= x <= 1) 形式)?例如,在使用洛伦兹曲线时,基尼系数在经济学中被使用;有QQ情节吗?
量化QQ图
正如我在回答您对上一个问题的评论时所说的那样,请查看 Kolmogorov-Smirnov 测试。它使用两个累积分布函数之间的最大绝对距离(或者认为是 QQ 图中曲线与 45 度线的最大绝对距离)作为统计量。ks.test()
可以使用“stats”库中的命令在 R 中找到 KS 测试。这是有关其 R 用法的更多信息。
我最近使用经验 CDF 和拟合 CDF 之间的相关性来量化拟合优度,我想知道这种方法在当前情况下是否也有用,据我了解,这涉及比较两个经验数据集。如果集合之间存在不同数量的观察值,则可能需要进行插值。
我会说比较两个分布的或多或少的规范方法是卡方检验。但是,统计数据并未标准化,这取决于您如何选择垃圾箱。最后一点当然可以看作是一个特性,而不是一个错误:例如,适当地选择 bin 可以让您更仔细地查看尾部的相似性,而不是分布中间的相似性。
一个非常直接的衡量 QQ 图中与线性的“接近性”的方法是 Shapiro-Francia 检验统计量(它与更为人所知的 Shapiro-Wilk 密切相关,可以被视为对其的简单近似)。
Shapiro-Francia 统计量是有序数据值和预期正态顺序统计量(有时标记为“理论分位数”)之间的平方相关性——也就是说,它应该是您在图中看到的相关性的平方,非常直接总结措施。
(Shapiro-Wilk 相似,但考虑了顺序统计之间的相关性;它与 Shapiro-Francia 具有相似的解释,并且与 QQ 图的总结几乎同样有用。)
无论哪种方式,对于 QQ 图显示的单个数字摘要,其中之一可能是总结该图的合适方式。
就我个人而言,我倾向于更多地寻找与线性的偏差而不是接近它(这建议看)。对于给定数量的非正态性,该比例往往会给您留下相当恒定的值。
[有时我乘以(趋于变小如果采样正常)。在从正态抽样下,平均值或中位数往往相当稳定,因为变化。乘以虽然仍然不太正确,但它略微过度校正 - 结果随着介于两者之间 和——但这种变化与你倾向于得到的与正常值有任何实质性偏差的值相比是很小的。达到分布变化不大的规模使它更像一个转换后的 p 值(作为衡量非正态性数量的用处不大,如果您对判断它是否不仅仅是随机变化感兴趣,则更有用)。]