机器算法验证 - 正确解释置信区间的重要性 - 吾爱随笔录

正确解释置信区间的重要性

机器算法验证置信区间

2022-04-07 00:32:55

给定具有 95% 置信水平的置信区间，说估计参数包含在置信区间中的概率为 95% 是不正确的。

原因是样本已经被取走；实际价值要么包含在其中，要么不包含在其中。随机性的概念不再适用。

但我的问题是这种区别的重要性是什么？

PS如果你能用一个脚踏实地的例子来说明答案，一个没有强大统计学背景的人可以理解，我将不胜感激。

2个回答

老实说：我认为实际的区别并不是那么重要。是的，由于您给出的确切原因，说“估计参数包含在置信区间中的概率为 95%”是不正确的。但是，我不认为这是一个大问题。（我会对任何其他观点感兴趣。这种不正确的写作方式是否曾导致“真正的”问题？）

如果您运行单个实验并获得单个 CI，那么是的，它包含或不包含参数的真实值：

正如您所写，不再涉及概率。只有当我们（显式或隐式）多次运行完全相同的实验并收集所有CI 时，才能正确解释CI：

在这里，我们看到（大约）95% 的 CI 确实包含正确的参数。（上图中单个实验的 CI 是第二个图中底部的 CI。）

是的，如果每个人都使用正确的命名法会更好，或者至少在他们草率地写作时，在他们脑后有多次重复实验的正确解释。但人们不会。

老实说，我不认为这是一个真正的大问题。

代码：

set.seed(1)
n_population <- 1e6
xx_population <- runif(n_population)
param <- 0.5
yy_population <- 2+param*xx_population+rnorm(n_population,0,0.5)

n_analyses <- 100
n_sample <- 30

CIs <- matrix(NA,nrow=n_analyses,ncol=3)
for ( ii in 1:n_analyses ) {
    index <- sample(1:n_population,n_sample)
    model <- lm(yy_population[index]~xx_population[index])
    CIs[ii,] <- c(confint(model)[2,1],coef(model)[2],confint(model)[2,2])
}

opar <- par(mai=c(.5,.1,.1,.1))
ii <- 1
plot(range(CIs),c(ii,ii),type="n",xlab="",ylab="",yaxt="n")
lines(CIs[ii,c(1,3)],rep(ii,2),col=2-(CIs[ii,1]<param&param<CIs[ii,3]))
points(CIs[ii,2],ii,pch=19,col=2-(CIs[ii,1]<0.5&0.5<CIs[ii,3]))
abline(v=param,lty=2,lwd=2)

plot(range(CIs),c(1,n_analyses),type="n",xlab="",ylab="",yaxt="n")
sapply(1:n_analyses,function(ii)lines(CIs[ii,c(1,3)],rep(ii,2),col=2-(CIs[ii,1]<param&param<CIs[ii,3])))
points(CIs[,2],1:n_analyses,pch=19,col=2-(CIs[,1]<0.5&0.5<CIs[,3]))
abline(v=param,lty=2,lwd=2)

假设您正在使用一些给定的特征来估计房子的价格。所以当有人说要找出价格 %置信区间时，给出一些特征。所以你基本上是在找到一个区间以便你的价格在这个区间内的概率 $95$ $[x, y]$ $[x,y]$ 是 $0.95$ （IE $95$ %）。

我希望这有帮助。

其它你可能感兴趣的问题

上一篇生态学中的混合模型：何时使用随机效应下一篇R：对 lmer 的事后测试。emmeans 和 multcomp 软件包