我最近读了很多关于置信区间的文章,并且不断看到诸如“95% 置信区间是一个随机区间,其中 95% 的时间包含真实参数”或“置信区间是一个随机变量,因为x-bar(它的中心)是一个随机变量。”
为什么置信区间被认为是随机的?如果它真的是随机的,那么为什么还要担心置信区间呢?我在这里错过了什么吗?
我最近读了很多关于置信区间的文章,并且不断看到诸如“95% 置信区间是一个随机区间,其中 95% 的时间包含真实参数”或“置信区间是一个随机变量,因为x-bar(它的中心)是一个随机变量。”
为什么置信区间被认为是随机的?如果它真的是随机的,那么为什么还要担心置信区间呢?我在这里错过了什么吗?
为什么置信区间被认为是随机的?
您刚刚在问题中说明了原因!你引用了这个:
“置信区间是一个随机变量,因为 x-bar(它的中心)是一个随机变量。”
(在这种情况下,它可能是平均值的区间,但推理会延续到其他置信区间。)
样本均值是一个统计量——您从样本中计算出的数量。因为来自某些群体的随机样本是随机的,所以从它们计算出来的东西也将是随机的。
考虑:如果你从同一人群中抽取第二个样本,你会有相同的观察结果吗?
两个样本的样本均值是否相同?两个样本的样本标准差是否相同?最大的观察?下四分位数?
不,它们因样品而异;事实上,它们也是随机的。
置信区间也基于随机样本,因此它也是一个统计量(例如,根据其端点定义它)并且它也是随机的。
如果它真的是随机的,那么为什么还要担心置信区间呢?
我在这里错过了什么吗?
那么大概你想使用数据来计算你的间隔。毕竟,正是我们所拥有的东西告诉了我们一些关于我们从中抽取样本的人群的信息。
如果您使用的是数据(人口的随机样本),那么您从中计算的有用数量也将是随机的,包括置信区间。
随机并不意味着“忽略您的数据”——例如,样本均值告诉我们总体均值,我们的样本标准差可用于帮助我们计算出样本均值与总体均值的偏差程度.
事实上,我们依赖于随机性——我们利用它从我们的样本中获得最好的信息使用。如果没有随机抽样,我们的间隔不一定能告诉我们很多东西。
[您可能想考虑是否有一种方法可以得到一个人口数量的区间,该区间同时具有合理的信息量而不是随机的。]
几个暂定的近似值:
置信区间并没有告诉你概率真实的比例包含在其界限之间,这令人难以置信。相反,它只不过是基于 CLT 之类的样本的“详细说明”。因此,它是“随机的”(眨眼,眨眼)。
如果你想要参数的概率被包含在某个区间内,你必须改变党派关系,并在显然更令人满意的贝叶斯范式下查找可信区间。
经典概率将参数视为固定的,但通常不是精确已知的。可以开发一个区间,其中包含具有一定概率 P 的参数,该概率将在重复抽样中出现。这个概率被称为“置信区间”并且是随机区间包含固定参数的概率。
对于特定的样本,可以计算出特定的置信区间;参数要么在这个特定的置信区间内,要么不在这个置信区间内,所以说参数有概率 P 在这个置信区间内是不正确的。来自样本的置信区间具有包含参数的概率 P。