机器算法验证 - 中心极限定理和帕累托分布 - 吾爱随笔录

中心极限定理和帕累托分布

机器算法验证方差中心极限定理直觉帕累托分布肥尾

2022-03-01 21:41:09

有人可以提供一个简单的（非专业人士）解释帕累托分布和中心极限定理之间的关系（例如它是否适用？为什么/为什么不？）？我试图理解以下陈述：

“中心极限定理不适用于每个分布。这是由于一个鬼鬼祟祟的事实——样本均值聚集在潜在分布的均值周围（如果存在）。但是分布怎么可能没有均值？嗯，一个常见的分布没有均值的是帕累托分布。如果你试图用通常的方法计算它，它会发散到无穷大。

3个回答

该陈述通常不正确 - 如果）大于 1，则帕累托分布确实具有有限均值。 $\alpha$

当均值和方差都存在时（），中心极限定理的通常形式- 例如经典、李雅普诺夫、林德伯格将适用 $\alpha>2$

请参阅此处对经典中心极限定理的描述

引用有点奇怪，因为中心极限定理（以任何提到的形式）不适用于样本均值本身，但适用于标准化均值（如果我们尝试将其应用于均值和方差为不是有限的，我们需要非常仔细地解释我们实际上在谈论什么，因为分子和分母涉及没有有限限制的事物）。

尽管如此（尽管在谈论中心极限定理时没有完全正确地表达）它确实有一些潜在的点——如果形状参数足够小，样本均值不会收敛到总体均值（弱定律大数的不成立，因为定义均值的积分不是有限的）。

正如 kjetil 在评论中正确指出的那样，如果我们要避免收敛速度很糟糕（即能够在实践中使用它），我们需要对“多远”/“多快”进行某种限制近似开始。如果我们想从正常近似中获得一些实际用途，那么（比如说）有足够的近似是没有用的。 $n> 10^{10^{100}}$

中心极限定理是关于目的地的，但没有告诉我们到达那里的速度。然而，像Berry-Esseen 定理这样的结果确实限制了速率（在特定意义上）。在 Berry-Esseen 的情况下，它限制了标准化均值分布函数和标准正态 cdf 之间的最大距离，就第三个绝对矩而言。 $E(|X|^3)$

因此，在 Pareto 的情况下，如果处的近似可能有多糟糕，以及我们到达那里的速度有多快。（另一方面，限制 cdfs 的差异不一定是一个特别“实用”的东西——你感兴趣的东西可能与尾部区域差异的界限没有特别好的关系）。然而，它是一些东西（至少在某些情况下，cdf 绑定更直接有用）。 $\alpha\gt 3$ $n$

我将添加一个答案，显示中心极限定理 (CLT) 的近似对于帕累托分布有多糟糕，即使在满足 CLT 假设的情况下也是如此。假设必须有一个有限方差，这对于帕累托意味着。有关为什么会这样的更多理论讨论，请参阅我的回答：有限方差和无限方差之间的区别是什么 $\alpha > 2$

模拟来自帕累托分布的数据，以便方差“几乎不存在”。重做我的模拟，看看有什么不同！这是一些R代码： $\alpha=2.1$ $\alpha=3.1$

    ###  Pareto dist and the central limit theorem
    ###
    require(actuar) # for (dpqr)pareto1()
    require(MASS) #  for Scott()
    require(scales) # for alpha()
    # We use (dpqr)pareto1(x,alpha,1)
    #
    alpha <- 2.1  #  variance just barely exist
    E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
    VAR <- function(alpha) ifelse(alpha <= 2, Inf, 
            alpha/((alpha-1)^2 * (alpha-2)))
    
    R <- 10000
    e <-  E(alpha)
    sigma  <-  sqrt(VAR(alpha))
    sim <-  function(n) {
        replicate(R, {x <- rpareto1(n,alpha,1)
            x <- x-e
            mean(x)*sqrt(n)/sigma },simplify=TRUE)
    }
    sim1 <- sim(10)
    sim2 <- sim(100)
    sim3 <- sim(1000)
    sim4 <- sim(10000) # do take some time ...
    
    ### These are standardized so have all 
    ### theoretically variance 1.
    ### But due to the long tail, the empirical variances are 
    ### (surprisingly!) much lower:
    
    sd(sim1)
    sd(sim2)
    sd(sim3)
    sd(sim4)
    
    ### Now we plot the histograms:
    hist(sim1, prob=TRUE, breaks="Scott", col=alpha("grey05", 
    0.95), main="simulated Pareto means", xlim=c(-1.8,16))
    hist(sim2, prob=TRUE, breaks="Scott", col=alpha("grey30", 
          0.5), add=TRUE)
    hist(sim3, prob=TRUE, breaks="Scott", col=alpha("grey60", 
          0.5), add=TRUE)
    hist(sim4, prob=TRUE, breaks="Scott", col=alpha("grey90", 
          0.5), add=TRUE)
    plot(dnorm, from=-1.8, to=5, col=alpha("red", 0.5), add=TRUE)

这是情节：

可以看出，即使在样本大小时，我们也离正态近似值很远。经验方差远低于真实的理论方差是因为我们对极右尾分布部分的方差有很大的贡献，而这些部分没有出现在大多数样品。当方差“几乎不存在”时，这总是可以预料的 $n=10000$ $\sigma^2=1$ . 考虑这一点的一种实用方法如下。帕累托分布经常被提出来模拟收入（或财富）的分布。极少数亿万富翁对收入（或财富）的预期会有很大的贡献。使用实际样本量进行抽样的样本中包含任何亿万富翁的概率非常小！

我喜欢已经给出的答案，但认为它们对于“外行解释”来说太技术性了，所以我会尝试一些更直观的东西（从等式开始......）。

密度的平均值定义为：粗略地说，平均值是处的密度与本身当趋于无穷大时，处的密度必须充分消失，以使乘积不会趋于无穷大（因此总和也不会趋于无穷大）。当没有充分消失时，乘积趋于无穷，积分趋于无穷，不存在，最后没有均值。对于某些参数值，这是 Pareto 的情况。 $p$

μ = \int x \cdot p (x) d x

$\mu = \int x \cdot p(x) dx$

x

$x$

x

$x$

x

$x$

x

$x$

p (x)

$p(x)$

x \cdot p (x)

$x \cdot p(x)$

p (x)

$p(x)$

μ

$\mu$

p

$p$

然后，中心极限定理建立了经验均值之间的距离分布 $\bar{x}=\frac{1}{n} \sum_i x_i$ 和平均值 $\mu$ 作为方差的函数 $p$ 和 $n$ （渐近地与 $n$ ）。让我们看看经验均值如何 $\bar{x}$ 表现为数量的函数 $n$ 对于高斯密度 $p$ ：

    N=10000;
    x=rnorm(N,1,1);
    y=rep(NA,N);
    for(index in seq(1,N))
    {
    y[index]=mean(x[1:index])
    }
    png('~/Desktop/normalMean.png')
    plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
    dev.off()

这是一个典型的实现，样本均值非常恰当地收敛到密度均值（并且以中心极限定理给出的平均方式）。让我们对没有均值的帕累托分布做同样的事情（替换 rnorm(N,1,1); 由帕累托（N,1.1,1);）

这也是一个典型的模拟，有时，样本均值会严重偏离，因为正如使用积分公式所解释的那样，在产品中 $p(x) \cdot x$ ，高值的频率 $x$ 不足以弥补以下事实 $x$ 高。所以均值不存在，样本均值不收敛到任何典型值，中心极限定理无话可说。

最后，请注意中心极限定理与经验均值、均值、样本量相关 $n$ 和方差。所以方差 $\int (x-\mu)^2 p(x) dx$ 必须也存在（有关详细信息，请参阅 kjetil b halvorsen 答案）。

其它你可能感兴趣的问题

上一篇R中从因子转换为数值变量的问题下一篇是什么让均方误差如此之好？