机器算法验证 - 中心极限定理需要大样本量的分布示例 - 吾爱随笔录

中心极限定理需要大样本量的分布示例

机器算法验证意思是样本量正态假设中心极限定理

2022-02-02 08:56:05

一些书籍指出，中心极限定理需要 30 或更大的样本量才能为提供良好的近似值。 $\bar{X}$

我知道这对于所有发行版来说是不够的。

我希望看到一些分布示例，即使样本量很大（可能是 100、1000 或更高），样本均值的分布仍然相当偏斜。

我知道我以前见过这样的例子，但我不记得在哪里也找不到它们。

3个回答

一些书籍指出，中心极限定理需要 30 或更大的样本量才能为提供良好的近似值。 $\bar{X}$

这个常见的经验法则几乎完全没有用。对于非正态分布，n=2 可以，而非正态分布对于更大的是不够的 - 因此，如果没有明确限制情况，该规则会产生误导。在任何情况下，即使它是真的，所需的也会根据你在做什么而有所不同。通常你会在分布中心附近得到很好的近似值，但需要更大的才能在尾部得到一个不错的近似值。 $n$ $n$ $n$ $n$

编辑：有关该问题的众多但显然一致的意见，以及一些良好的链接，请参阅此问题的答案。不过我不会强调这一点，因为你已经清楚地理解了。

我希望看到一些分布示例，即使样本量很大（可能是 100 或 1000 或更高），样本均值的分布仍然相当偏斜。

示例相对容易构建；一种简单的方法是找到一个非正态的无限可分分布并将其分割。如果您有一个在平均或总结时会接近正常值，请从“接近正常值”的边界开始，并尽可能多地划分它。例如：

考虑具有形状参数的 Gamma 分布。将比例设为 1（比例无关紧要）。假设您认为只是“足够正常”。然后，您需要获得 1000 个观测值才能充分正常的分布具有分布。 $α$ $\text{Gamma}(α_0,1)$ $\text{Gamma}(α_0/1000,1)$

因此，如果您觉得的 Gamma只是“足够正常”- $\alpha=20$

伽玛 (20) pdf

然后将除以 1000，得到： $\alpha=20$ $\alpha = 0.02$

伽玛 (0.02) pdf

其中 1000 个的平均值将具有第一个 pdf 的形状（但不是它的比例）。

如果您改为选择不接近正态的无限可分分布，例如 Cauchy，则可能没有样本量的样本均值具有近似正态分布（或者，在某些情况下，它们可能仍接近正态，但对于标准错误，您没有 $\sigma/\sqrt n$

@whuber 关于受污染分布的观点非常好；尝试对这种情况进行一些模拟并查看在许多此类样本中的行为方式可能是值得的。

除了这里提供的许多很好的答案之外，Rand Wilcox 还发表了关于该主题的优秀论文，并表明我们对正态近似充分性的典型检查非常具有误导性（并且低估了所需的样本量）。他提出了一个很好的观点，即平均值可以近似正常，但是当我们不知道时，这只是故事的一半。当未知时，我们通常使用分布进行检验和置信限。样本方差可能与缩放的分布非常非常远，并且比率可能看起来不像分布 $\sigma$ $\sigma$ $t$ $\chi^2$ $t$ $t$ $n=30$ . 简而言之，非正态性对的影响比对的影响更大。 $s^2$ $\bar{X}$

您可能会发现这篇论文很有帮助（或者至少很有趣）：

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

UMass 的研究人员实际上进行了一项类似于您所要求的研究。由于 CLT，某些分布式数据在多大的样本量下服从正态分布？显然，为心理学实验收集的大量数据并不接近正态分布，因此该学科非常依赖 CLT 对其统计数据进行任何推断。

首先，他们对均匀、双峰和一个正常分布的数据进行测试。使用 Kolmogorov-Smirnov，研究人员测试了有多少分布在水平上被拒绝为正态性。 $\alpha = 0.05$

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

奇怪的是，在样本量为 20 的情况下，65% 的正态分布数据被拒绝，即使样本量为 30，仍有 35% 的数据被拒绝。

然后，他们测试了几个使用 Fleishman 幂方法创建的严重偏斜分布：

$Y = aX + bX^2 +cX^3 + dX^4$

X 表示从正态分布中得出的值，而 a、b、c 和 d 是常数（注意 a=-c）。

他们用高达 300 的样本量进行了测试

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062

他们发现，在最高水平的 skew 和 kurt（1.75 和 3.75）下，样本大小为 300 时不会产生遵循正态分布的样本均值。

不幸的是，我不认为这正是您正在寻找的东西，但我偶然发现它并发现它很有趣，并且认为您也可能如此。

其它你可能感兴趣的问题

上一篇在 R 中拟合 t 分布：缩放参数下一篇有没有理由将回归问题作为分类问题来解决？