我想使用 QQ 图评估数据集的正态性(即对数正态分布的数据转换回正态)。
我偶然发现有很多方法可以构建这样的图,因为有多种方法可以确定样本分位数;以及根据理论分位数选择放置它们的不同方法。
作为说明,我生成了一个大小为的随机样本,并将该样本的分位数与理论分位数作图。蓝点对应于理论和样本分位数;根据Filliben 的估计,橙色点对应于理论分位数,而匹配的样本分位数仍然是。数字的标题对应于样本分位数的确定方式;R* 符号引用此表;HD 引用了Harrell-Davis estimator,维基百科页面上没有提到它。SciPy 默认对应scipy.mstats.mquantiles的默认行为,这似乎也没有记录在维基百科上。
R4 图的橙色点对应于scipy.stats.problot的行为,它将排序后的数据与使用 Filliben 估计值评估的理论分位数进行对比。
第二个图显示了针对的这些不同的分位数估计。
差异相当微不足道。HD 估计器似乎产生了更平滑的曲线,这让我很想使用它,但这是一个相当肤浅的理由。
我通过组合几个不同权重的数据集来获得我的实际数据;我肯定会有超过 50 分,可能从到。不同的分位数估计器可能会导致采用不同的方法来合并这些权重,因此我想在解决这个问题之前对所述估计器做出“有根据的”选择。任何输入表示赞赏。
作为最终精度:我必须假设数据是对数正态分布的,因为我需要在构建 QQ 图之前估计分布的参数以将其缩放回标准正态分布。这更像是对直方图所暗示的内容的后验验证,而不是实际探索。
编辑:我意识到我并不真正需要所有的分布参数,只需要在取日志之前的班次与标准正态比较。就我而言,它可以合理地介于 0 和一阶统计量之间。
为了扩展我的实际问题,这里有一些我的数据示例。“样本分位数”轴对应于转换为标准法线的数据,即其中是实际数据。数据点为蓝色,橙色线穿过第一和第三四分位数,黑色点是从标准正态分布中采样的随机变量的 20 个实现,如@BruceET 的回答中所建议的那样。
这里的关键是我的数据点是加权的。我不能只对它们进行排序以获得样本分位数;我的分位数是数据点的线性组合,这种转换取决于权重。转换的矩阵非常稀疏,但就我感兴趣的分位数而言,我还没有设法比线性时间更有效地构建它。因此,与其根据评估的理论值确定分位数,不如说,seq(.5/n, 1-.5/n, length=n)对于和我的观察次数,我用更小的来做。
该图清楚地表明我的数据(是对数正态分布的正确估计参数。
这清楚地表明数据()不是对数正态分布或估计失败。
在这两种情况下,我都使用。
我从实际体重确定“分位数权重”的方式是基于此处描述的方法,使用 R7 定义。请注意,当不使用已排序的原始数据集时,Filliben 的估计值超出了窗口。
我现在更清楚地看到,没有分位数估计的方法;但是,我想知道不使用所有数据点会在多大程度上影响结果图。





