我知道,如果您多次从数据集中重新采样并每次计算均值,这些均值将遵循正态分布(通过 CLT)。因此,您可以计算数据集均值的置信区间,而无需对数据集的概率分布做出任何假设。
我想知道你是否可以为方差做类似的事情。也就是说,如果我要从数据集中多次重新采样并每次计算方差,这些方差是否会遵循某个分布(不管数据集的原始概率分布是什么)?
我知道如果原始数据集是正常的,那么方差将遵循卡方分布。但是在不正常的情况下呢?
我知道,如果您多次从数据集中重新采样并每次计算均值,这些均值将遵循正态分布(通过 CLT)。因此,您可以计算数据集均值的置信区间,而无需对数据集的概率分布做出任何假设。
我想知道你是否可以为方差做类似的事情。也就是说,如果我要从数据集中多次重新采样并每次计算方差,这些方差是否会遵循某个分布(不管数据集的原始概率分布是什么)?
我知道如果原始数据集是正常的,那么方差将遵循卡方分布。但是在不正常的情况下呢?
可以使用 Bootstrap 重采样来计算数据集方差的置信区间吗?
是的,就像许多其他统计数据一样。
我知道,如果您多次从数据集中重新采样并每次计算均值,这些均值将遵循正态分布(通过 CLT)。
并非总是这样,如果您引导均值,则引导均值将遵循正态分布,即使对于适用 CLT 的分布也是如此。
这是一个示例,我对大小样本的平均值进行了重新采样,我重新采样了 10000 次:
远非正常。
原始样本由九十七个“0”值、一个“1”、一个“2”和一个“100”组成。
这是我为生成上面的图而运行的 (R) 代码:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
问题是在这种情况下,样本量(100)太小,CLT 无法应用于这种分布形状。我们重新采样多少次都没关系。
但是,如果原始样本量更大,则此类样本均值的重采样分布看起来会更正常(尽管始终是离散的)。
以下是重新采样上述数据(黑色)和相同比例但值是十倍的值(红色;即 n=1000)时的 ecdfs:
As we see, the distribution function when resampling the large sample does look much more normal.
if I were to re-sample from a data set many times and calculate the variance each time, would these variances follow a certain distribution
No, for the same reason it's not necessarily true for the mean.
However, the CLT does also apply to the variance*; it's just that you can't argue that the CLT applies to bootstrap resampling simply by taking many resamples. If the original sample size is sufficiently large, that may (under the right conditions) tend to make the resampling distribution of means (and higher moments, if they exist) relatively close to a normal distribution (relative to its distribution in smaller samples, at least).
* 如果您考虑,CLT 通常适用于方差(假设存在适当的时刻)是直观的. 让; 然后, 所以如果 CLT 适用于-变量,它可以应用于. 现在只是一个缩放版本; 如果 CLT 适用于它将适用于 . 然而,这个论点的大纲并不完全可靠,并且有一些你一开始可能没有预料到的例外情况。