样本中的偏斜和峰度之间的关系

机器算法验证 偏度 时刻 峰度
2022-03-17 20:10:28

众所周知,,至少在总体中。但是,有限样本中的偏斜和过度峰度之间的关系是什么?excess kurtosisskew22

将超峰度定义为:

γ2=μ4/σ43,所以正态分布的超峰度 = 0。

μ4=E[(xμ)4]

σ4=(E[(xμ)2])2

(感谢@Silverfish 最初在评论中提出这个问题)

2个回答

关于在没有样本定义的情况下如何理解问题的一些广泛讨论。

由于引用的关系适用于分布,如果您将 ecdf 视为分布的 cdf,并应用您提供的那些总体定义,则该关系必须仍然成立。也就是说,如果你使用n样本定义中所有平均值的分母(包括计算σ^2),因此它们是该分布的预期值,关系应该是您所说的。

因此,通过将您的中心样本时刻都定义为mk=1ni(xix¯)k,您必须得到与您引用的结果相同的结果;不需要额外的代数。

如果您随后想要使用不同的定义,通过将新定义编写为刚刚提到的旧定义的函数(拉出任何非n分母),然后你应该能够推导出你所寻求的关系(它仍然应该渐近地去你提到的关系)

因此,例如,如果您在此处使用示例定义:

g2=m4m223,

和偏度的等价物,

g1=m3m23/2,

建立人口关系的证明仍然适用。

相反,如果您在此处使用样本偏度的定义(请注意,这会使您对方差估计的定义不一致!),那么您可以简单地写

b1=g1m23/2s3=g1(n1n)3/2

然后使用您引用的关系推导出g2b1. 等等其他定义(你可能想尝试一下G1例如,在关于偏度的维基百科文章中提到)。

此处提供了有关样本偏度和峰度限制的讨论作者适当引用了原始证明,引用的结果是:

|g1|n2n1=n11n1
b2=g2+3n23n+3n1=n2+1n1
因此对于n=10,您不能有大于 2.89 的偏度和大于 5.11 的过度峰度。