我正在查看一个相当偏斜的随机变量的样本峰度,结果似乎不一致。为了简单说明问题,我查看了对数正态 RV 的样本峰度。在 R 中(我正在慢慢学习):
library(moments);
samp_size = 2048;
n_trial = 4096;
kvals <- rep(NA,1,n_trial); #preallocate
for (iii in 1:n_trial) {
kvals[iii] <- kurtosis(exp(rnorm(samp_size)));
}
print(summary(kvals));
我得到的总结是
Min. 1st Qu. Median Mean 3rd Qu. Max.
11.87 28.66 39.32 59.17 61.70 1302.00
根据维基百科,这个对数正态 RV 的峰度应该在 114 左右。显然,样本峰度是有偏差的。
做一些研究,我发现样本峰度偏向于小样本量。我使用了 CRAN 中的包提供的“G2”估计器e1071
,并且在这个样本量下得到了非常相似的结果。
问题:以下哪项描述了正在发生的事情:
- 对于这个 RV,样本峰度的标准误差非常大(即使标准误差的手波常见估计是阶)。或者,我在这项研究中使用的样本太少(2048 个)。
- 样本峰度的这些实现存在数值问题,这些问题可以通过例如 Terriberry 的方法来纠正(与 Welford 的方法比简单的样本方差方法给出更好的结果的方式大致相同)。
- 我错误地计算了总体峰度。(哎哟)
- 样本峰度本质上是有偏差的,对于如此小的样本量,您永远无法修复它。