正确解释置信区间的重要性

机器算法验证 置信区间
2022-04-07 00:32:55

给定具有 95% 置信水平的置信区间,说估计参数包含在置信区间中的概率为 95% 是不正确的。

原因是样本已经被取走;实际价值要么包含在其中,要么不包含在其中。随机性的概念不再适用。

但我的问题是这种区别的重要性是什么

PS如果你能用一个脚踏实地的例子来说明答案,一个没有强大统计学背景的人可以理解,我将不胜感激。

2个回答

老实说:我认为实际的区别并不是那么重要。是的,由于您给出的确切原因,说“估计参数包含在置信区间中的概率为 95%”是不正确的。但是,我不认为这是一个大问题。(我会对任何其他观点感兴趣。这种不正确的写作方式是否曾导致“真正的”问题?)

如果您运行单个实验并获得单个 CI,那么是的,它包含或不包含参数的真实值:

单个 CI

正如您所写,不再涉及概率。只有当我们(显式或隐式)多次运行完全相同的实验并收集所有CI 时,才能正确解释CI:

100 个 CI

在这里,我们看到(大约)95% 的 CI 确实包含正确的参数。(上图中单个实验的 CI 是第二个图中底部的 CI。)

是的,如果每个人都使用正确的命名法会更好,或者至少在他们草率地写作时,在他们脑后有多次重复实验的正确解释。但人们不会。

老实说,我不认为这是一个真正的大问题。

代码:

set.seed(1)
n_population <- 1e6
xx_population <- runif(n_population)
param <- 0.5
yy_population <- 2+param*xx_population+rnorm(n_population,0,0.5)

n_analyses <- 100
n_sample <- 30

CIs <- matrix(NA,nrow=n_analyses,ncol=3)
for ( ii in 1:n_analyses ) {
    index <- sample(1:n_population,n_sample)
    model <- lm(yy_population[index]~xx_population[index])
    CIs[ii,] <- c(confint(model)[2,1],coef(model)[2],confint(model)[2,2])
}

opar <- par(mai=c(.5,.1,.1,.1))
ii <- 1
plot(range(CIs),c(ii,ii),type="n",xlab="",ylab="",yaxt="n")
lines(CIs[ii,c(1,3)],rep(ii,2),col=2-(CIs[ii,1]<param&param<CIs[ii,3]))
points(CIs[ii,2],ii,pch=19,col=2-(CIs[ii,1]<0.5&0.5<CIs[ii,3]))
abline(v=param,lty=2,lwd=2)

plot(range(CIs),c(1,n_analyses),type="n",xlab="",ylab="",yaxt="n")
sapply(1:n_analyses,function(ii)lines(CIs[ii,c(1,3)],rep(ii,2),col=2-(CIs[ii,1]<param&param<CIs[ii,3])))
points(CIs[,2],1:n_analyses,pch=19,col=2-(CIs[,1]<0.5&0.5<CIs[,3]))
abline(v=param,lty=2,lwd=2)

假设您正在使用一些给定的特征来估计房子的价格。所以当有人说要找出价格 %置信区间时给出一些特征所以你基本上是在找到一个区间以便你的价格在这个区间内的概率95[x,y][x,y]0.95(IE95%)。

我希望这有帮助。