离散均匀分布的均值和方差的独立性

机器算法验证 分布 方差 意思是 独立 时刻
2022-03-26 00:12:32

在我的一篇文章下面的评论中,Glen_b 和我正在讨论离散分布如何必然具有相关的均值和方差。

对于正态分布,这是有道理的。如果我告诉你$\bar{x}$,你不知道$s^2$是什么,如果我告诉你$s^2$,你不知道$\bar{x}是什么$是。(编辑以解决样本统计数据,而不是总体参数。)

但是对于离散的均匀分布,不是同样的逻辑适用吗?如果我估计端点的中心,我不知道比例,如果我估计比例,我不知道中心。

我的想法出了什么问题?

编辑

我做了jbowman的模拟。然后我用概率积分变换(我认为)来检查这种关系,而不受边缘分布的任何影响(copula 的隔离)。

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

在此处输入图像描述

在 RStudio 中出现的小图像中,第二个图看起来在单位正方形上具有均匀的覆盖范围,因此是独立的。放大后,有明显的垂直带。我认为这与离散性有关,我不应该读到它。然后我尝试在$(0,10)$上进行连续均匀分布

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

在此处输入图像描述

这个看起来确实像它的点在单位正方形上均匀分布,所以我仍然怀疑$\bar{x}$$s^2$是独立的。

2个回答

jbowman 的回答 (+1) 讲述了大部分故事。这里还有一点。

(a) 对于来自连续均匀分布的数据,样本均值和 SD 不相关,但不独立。情节的“轮廓”强调了依赖性。在连续分布中,独立性仅适用于正态。

在此处输入图像描述

    set.seed(1234)
    m = 10^5; n = 5
    x = runif(m*n);  DAT = matrix(x, nrow=m)
    a = rowMeans(DAT)
    s = apply(DAT, 1, sd)
    plot(a,s, pch=".")

(b) 离散制服。离散性使得可以找到平均值的值$a$和 SD 的值$s$使得$P(\bar X = a) > 0,\, P(S = s) > 0,$ 但是$P(\bar X = a, X = s) = 0.$

在此处输入图像描述

    set.seed(2019)
    m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
    DAT = matrix(x, nrow=m)
    a = rowMeans(DAT)
    s = apply(DAT, 1, sd)
    plot(a,s, pch=20)

(c) 四舍五入的正态分布是不正态的。离散导致依赖。

在此处输入图像描述

    set.seed(1776)
    m = 10^5; n = 5
    x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
    a = rowMeans(DAT);  s = apply(DAT, 1, sd)
    plot(a,s, pch=20)

(d) 在 (a) 的基础上,使用分布$\mathsf{Beta}(.1,.1),$ 而不是$\mathsf{Beta}(1,1) \equiv \mathsf{Unif}(0, 1).$ 强调样本均值和SD的可能值的边界。我们将 5 维超立方体“压缩”到 2 空间。一些超边缘的图像很清晰。[参考:下图类似于 Suess & Trumbo (2010), Intro to probability simulation and Gibbs sampling with R, Springer 中的图 4.6。]

在此处输入图像描述

    set.seed(1066)
    m = 10^5; n = 5
    x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
    a = rowMeans(DAT);  s = apply(DAT, 1, sd)
    plot(a,s, pch=".")

每个评论的附录。

在此处输入图像描述

在离散分布的情况下,均值和方差不是相关的,而是样本均值和方差在给定分布参数的情况下是相关的。均值和方差本身是分布参数的固定函数,“独立性”等概念不适用于它们。因此,你在问自己错误的假设性问题。

在离散均匀分布的情况下,绘制从 100 个均匀$(1, 2, \dots, 10)$变量的样本计算的 20,000 个$(\bar{x}, s^2)$对的结果会导致:

在此处输入图像描述

这很清楚地表明它们不是独立的;$s^2$的较高值不成比例地位于$\bar{x}$范围的中心。(然而,它们是不相关的;一个简单的对称性论证应该让我们相信这一点。)

当然,一个例子不能证明格伦在您链接到的帖子中的猜想,即不存在具有独立样本均值和方差的离散分布!