如何判断我的数据分布是否对称?

机器算法验证 分布 意思是 偏度 中位数 QQ图
2022-02-06 19:17:01

我知道如果中位数和平均值大致相等,那么这意味着存在对称分布,但在这种特殊情况下我不确定。均值和中值非常接近(仅 0.487m/gall 差异),这将导致我说存在对称分布,但从箱线图来看,它看起来略微正偏(经证实,中值更接近 Q1 而不是 Q3由值)。

(如果您对这款软件有任何具体建议,我会使用 Minitab。)

4个回答

毫无疑问,你被告知不是这样,但意思是=中位数并不意味着对称。

有一个基于均值减去中位数(第二个 Pearson 偏度)的偏度度量,但当分布不对称时(如任何常见的偏度度量),它可以为 0。

同样,均值和中位数之间的关系并不一定意味着中间铰链之间的类似关系((Q1+Q3)/2) 和中位数。他们可以建议相反的偏度,或者一个可能等于中位数,而另一个不等于。

研究对称性的一种方法是通过对称图*。

如果Y(1),Y(2),...,Y(n)是从最小到最大的有序观察(顺序统计),并且M是中位数,然后是对称图Y(n)M对比MY(1),Y(n1)M对比MY(2), ... 等等。

* Minitab 可以做到这些事实上,我提出这个情节是一种可能性,因为我已经在 Minitab 中看到过它们。

这里有四个例子:

Symmetry plots
来自四个分布的样本的上述类型的对称图

(实际分布是​​(从左到右,顶行第一)- Laplace、Gamma(shape=0.8)、beta(2,2) 和 beta(5,2)。代码是 Ross Ihaka 的,从这里开始

对于重尾对称示例,通常情况下最极端的点可能离线很远;当您靠近图的右上角时,您将不太注意与一两个点的线的距离。

当然,还有其他图(我提到对称图并不是出于对那个特定图的特殊宣传,而是因为我知道它已经在 Minitab 中实现了)。所以让我们探索一些其他的。

这是尼克考克斯在评论中建议的相应斜线图:

Skewness plots
Nick Cox 在评论中建议的偏度图

在这些图中,上升趋势表明右尾通常比左尾重,而下降趋势表明左尾通常比右尾重,而相对平坦(尽管可能相当嘈杂)的图表明对称性。

尼克建议这个情节更好(特别是“更直接”)。我倾向于同意;因此,该图的解释似乎更容易一些,尽管相应图中的信息通常非常相似(在您减去第一组中的单位斜率后,您会得到与第二组非常相似的东西)。

[当然,这些都不能告诉我们数据的分布实际上是对称的;我们得到了样本接近对称程度的指示,因此在这个程度上我们可以判断数据是否与从接近对称的总体中提取的数据合理一致。]

最简单的事情是计算样本偏度Minitab 中有一个功能。对称分布将具有零偏度。零偏度不一定意味着对称,但在大多数实际情况下它会。

正如@NickCox 所指出的,偏度的定义不止一种。我使用与 Excel 兼容的那个,但您可以使用任何其他的。

通过减去样本均值,将数据集中在零附近。现在将您的数据分成两部分,负数和正数。取负数据点的绝对值。现在通过将两个分区相互比较来进行两个样本的 Kolmogorov-Smirnov 检验。根据 p 值得出结论。

将您的观察值按递增值排序在一列中,然后将它们按递减值排序在另一列中。
然后计算这两列之间的相关系数(称为 Rm)。
计算手性指数:CHI=(1+Rm)/2。
CHI 取区间 [0..1] 中的值。
CHI 仅当您的样本对称分布时才为空。
不需要第三刻。
理论: http:
//petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(这两页中引用的大多数论文都可以在pdf中下载)
希望它帮助,即使是最近。