在统计学的第一门课程中,我们被告知,当我们不知道真正的方差时,我们仍然可以使用样本方差对样本均值执行某些基本检验——前提是我们可以使用正态对样本进行建模随机变量。这是因为均值的标准化遵循易于理解的分布(t 分布)。
这基于这样一个事实,即当建模样本的 iid 随机变量为 Normal 时,我们了解样本方差的抽样分布:
如果 for那么
我的问题:
- 当 iid 随机变量不正常但具有有限均值和方差时,我们可以说的最一般的事情是什么?换句话说,是否有类似于样本方差的中心极限定理的东西?
在统计学的第一门课程中,我们被告知,当我们不知道真正的方差时,我们仍然可以使用样本方差对样本均值执行某些基本检验——前提是我们可以使用正态对样本进行建模随机变量。这是因为均值的标准化遵循易于理解的分布(t 分布)。
这基于这样一个事实,即当建模样本的 iid 随机变量为 Normal 时,我们了解样本方差的抽样分布:
如果 for那么
我的问题:
- 当 iid 随机变量不正常但具有有限均值和方差时,我们可以说的最一般的事情是什么?换句话说,是否有类似于样本方差的中心极限定理的东西?
样本方差的渐近分布(在一般非正态情况下)可以在O'Neill (2014)中找到(结果 14,第 285 页)。正如其他人在对您的问题的评论中指出的那样,可以通过将 CLT 和 Slutsky 定理结合起来获得更一般的结果,对样本方差进行扩展(引用的论文有证据,因此您可以看到该技术)。
广义渐近结果类似于正常情况的(精确)分布,除了自由度参数受基础分布的峰度影响。基础分布中更高的峰度会导致更高的准确性,因为尾部值不太罕见;较低的峰度会导致较低的准确性,因为尾部值更为罕见。从上述论文中的结果 14 可以看出,一般情况(具有有限方差和峰度)具有渐近近似:
其中是基础分布的峰度。在中峰分布(例如正态分布)的情况下,您有,这给出了,这是正常情况下众所周知的分布。(您在问题的等式中不小心对这个项进行了平方。)在潜在的 platykurtic(leptokurtic)分布的情况下,自由度高于(低于)正常情况。
从这个结果中自由度参数的定义可以看出,这个参数是通过样本方差的方差从基础峰度形成的。(峰度会影响样本方差的方差,因此将其纳入本次分析。)调整自由度参数以确保卡方分布的方差与抽样统计量的真实方差相匹配.