机器算法验证 - 重尾学生 t 分布的方差估计 - 吾爱随笔录

重尾学生 t 分布的方差估计

机器算法验证 r 方差 t分布

2022-03-16 05:00:47

当自由度大于时， Student's t随机变量的方差为。在R中，当我尝试使用通常的估计器来估计方差时，估计值似乎有偏差，当接近 2，例如。这是我的代码和输出： $\nu$ $2$ $\nu/(\nu-2)$

1 / (n - 1) \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}

$1/(n-1)\sum_{i=1}^n (x_i-\overline{x})^2$

ν

$\nu$

ν = 2.2

$\nu=2.2$

nu <- 2.2
sim <- sapply(round(seq(1e6, 5e6, len=10)), 
        function(n)replicate(10, var(rt(n, 
          nu)) - nu/(nu-2)))
matplot(t(sim), pch=1, col=1)
abline(h=0)

与真实方差相比，估计的方差看起来太小了。这是

我的样本量（最多 500 万）仍然太小，无法显示接近 2 的自由度的一致性，
的这些值，样本方差估计器实际上并不一致， $\nu$
别的东西？

3个回答

正如@whuber 所观察到的，当基础数据分布为且自由度刚好高于 2 时，“通常”的标准差估计是高度可变的。 $t$

考虑以下实验。分布中生成 100,000 个样本，并以 10 为步长计算连续样本大小的样本标准偏差，例如 , , ... 。我们绘制了结果，它非常清楚地显示了不稳定性： $t(2.2)$ x[1:10]x[1:20]x[1:100000]

df <- 2.2
x <- rt(100000, df)

sd_est <- rep(0, 10000)
for (i in seq_along(sd_est)) {
  sd_est[i] <- sd(x[1:(10*i)])
}

plot(sd_est ~ seq(1, length(x), 
       length.out=length(sd_est)),
     xlab = "Sample size", 
     ylab = "Std. deviation estimate")
abline(h=sqrt(df/(df-2)))  
# The true standard deviation

而情节，在真值处有一条水平线：

即使我们认为我们有一个稳定的结果，例如，样本大小为 50,000，我们也可以通过一个观察来体验我们的估计值的巨大飞跃：

max(x)
[1] 712.4925
which.max(x)
[1] 55119

当然，在跟踪中没有任何一点我们特别接近真实值。

正如@whuber 所观察到的，解决方案是使用稳健的估计器。请注意，使用最大似然估计分布参数，然后计算标准差的估计值。与估计参数的偏差，也可能不是一个好主意：请参阅此答案Fitting t-distribution in R: scaling parameter

分布有几个大值。当您像示例中那样仅绘制一百个时，您看不到它们。

下面的示例更清楚地表明，您得到一个不等于零的众数，但您不一定有一个不等于零的平均值。

set.seed(1)
nu <- 2.2
sim <- sapply(round(seq(1e4, 1e4, 
        len=10000)), function(n) 
         replicate(10, var(rt(n, nu)) - 
          nu/(nu-2)))

matplot(t(sim),pch=21,col=1, bg = 1, 
  cex = 0.5)
abline(h=0)

hist(sim, breaks = seq(min(sim-1), 
     max(sim+1), 0.25), xlim = c(-7,30))

mean(sim)
### the mean of this sample will equal 
### 2.297499, which is *above* zero

您的示例将是重尾分布的新估计器的一个很好的应用。我称该方法为 Independent Approximates (IAs)，因为它使用近似相等的 n 元组的子样本。

该方法可用于估计位置、尺度和自由度。由于您正在估计方差，我假设规模是您的主要兴趣。 $\mu$ $\sigma$ $\nu$

要估计规模，假设位置已知，可以使用三元组 IA。通过将原始样本划分为三元组并子选那些近似相等的三元组并保留中值样本来选择三元组 IA。参考论文提供了更多细节。保证对所有具有有限二阶矩的三重态 IA ，如果，二阶矩的方差将是有限的。对于的示例，中值三元组 IA 样本将具有。 $\nu$ $\nu > 2$ $\nu=2.2$ $\nu_{triplet} = 8.6$

三元组的二阶矩估计值可用于使用以下函数估计原始分布的尺度。 $\mu_{triplet}^2$ $\mu = \sqrt{3 \mu_{triplet}^2}$

有关更多详细信息和示例，请参阅我的论文Independent Approximates 启用重尾分布的封闭形式估计。

其它你可能感兴趣的问题

上一篇峰度分布有什么实际意义/解释？下一篇在匹配中使用马氏距离而不是倾向得分有什么优缺点