方差的卡方置信区间

机器算法验证 置信区间 优化 卡方分布 最高密度区
2022-03-17 10:54:55

例如,当使用卡方分布构建总体方差90%

P(a<(n1)S2σ2<b)=P((X¯Xi)2b<σ2<(X¯Xi)2a)=0.9, where (n1)S2σ2χn12.

在我的课程中,我们找到使得a,b

P(χn12<a)=P(χn12>b)=0.05.

我的问题是,鉴于小为什么我们为双方概率加权到一侧,而不是平均分配,我们肯定会有更短的置信区间吗?n,0.050.1

4个回答

由于卡方分布是偏斜的,因此样本方差通常不在方差的 95% CI 的中心(对于正常数据)。

你说得对,你通常可以通过从一条尾巴取 2% 的概率和从另一条尾巴取 3% 的概率来获得更窄的间隔,而不是从每条尾巴取 2.5%。

出于实际目的,最窄的 95% 区间可能会将几乎所有的 5% 概率放在一条尾巴上,从而成为几乎单边的区间。这可能有用也可能没用。

因此,在一般实践中使用概率对称区间已或多或少成为标准。如果您没有显示概率对称区间,最好报告您不是,并解释原因。

示例: 且方差为的正态样本。n=20σ2=25.

set.seed(2022)
x = rnorm(20, 50, 5)
v = var(x);  v
[1] 25.01484

的七个 2 边 95% CI及其宽度:σ2

CI.1 = 19*v/qchisq(c(.97, .02), 19)
CI.1; diff(CI.1)
[1] 14.77971 55.47799
[1] 40.69828

CI.2 = 19*v/qchisq(c(.975, .025), 19)
CI.2; diff(CI.2)
[1] 14.46722 53.36339
[1] 38.89617    # probability-symmetric

CI.3 = 19*v/qchisq(c(.98, .03), 19)
CI.3; diff(CI.3)
[1] 14.10859 51.65860
[1] 37.55002

CI.4 = 19*v/qchisq(c(.99, .04), 19)
CI.4; diff(CI.4)
[1] 13.13265 49.00681
[1] 35.87417

CI.5 = 19*v/qchisq(c(.995, .045), 19)
CI.5; diff(CI.5)
[1] 12.31867 47.93333
[1] 35.61466   # shortest on this list           

CI.6 = 19*v/qchisq(c(.999, .049), 19)
CI.6; diff(CI.6)
[1] 10.84618 47.16119      
[1] 36.31501   # longer than above

CI.7 = 19*v/qchisq(c(.99999, .04999), 19)
CI.7; diff(CI.7)
[1]  8.284141 46.980289
[1] 38.69615   # 'almost' one sided

注意:相关的单边 95% CI 将给出上限根据应用程序,这可能正是您想要的。46.97848.

对于单变量连续非对称分布,可以通过求解边界点的约束优化问题来找到最高密度区域 (HDR) 。你是对的,这涉及在尾巴上放置不相等的重量。您可以在O'Neill (2021)中找到对此问题的详细分析,包括对所讨论的优化问题及其解决方案的说明。本文还讨论了寻找方差的最佳置信区间的问题。

为了避免重新发明轮子,值得注意的是,所有标准单变量发行版的 HDR 都stat.extend可以R. 可用的系列包括卡方分布、伽马分布和逆伽马分布。这些可用于手动计算最佳置信区间。或者,也有最优置信区间的直接函数,包括方差的最优置信区间。在下面的代码中,我们使用该CONF.var函数来计算一些模拟数据的最佳 95% 置信区间。

#Load library
library(stat.extend)

#Create some mock data (same data as used by BruceET)
set.seed(2022)
x = rnorm(20, 50, 5)

#Compute optimal confidence interval
#Assumes a mesokurtic distribution (kurt = 3)
CONF.var(x, alpha = 0.05, kurt = 3)

        Confidence Interval (CI) 
 
95.00% CI for variance parameter for infinite population 
Interval uses 20 data points from data x with sample variance = 25.0148 and 
assumed kurtosis = 3.0000 
Computed using nlm optimisation with 8 iterations (code = 1) 

[12.4006846357447, 48.0126609150707]

(1)Pr(a<χk2<b)=0.9

选择的一种方法是选择它们以使这两点的卡方密度函数值彼此相等,同时使上面的线为真。ab(1)

这确实给了你一个更短的置信区间,但它在数字上实现起来有些复杂,而且你所学课程的目的可能只是为了表明可以通过“反转”的置信区间" "关键量"σ2(n1)S2/σ2.

一个答案是为什么不对两条尾巴使用相等的概率?假设我们不这样做,我们就会根据概率产生不对称的置信区间。让我们举一个极端的例子,要建立一个 95% 的置信区间,我们通常会将区间设置为低 2.5%,尾部高 2.5%。现在我们决定我们想要一个极端的例子,所以我们选择 0% 的左尾和 5% 的上尾重分布的右尾分布。那是什么?它是对Xi较大的置信区间上限。那么,为什么要平衡概率呢?因此,低于置信区间的答案的概率与高于置信区间的答案的概率相同,这给了我们一个平衡的或双尾的答案,即一个值在其中的概率置信区间。Xi

询问是否存在希望尾部概率不等的情况并非不合理。这是一个任意示例,其概率不是所寻求的最终答案。假设 x 轴度量是我们通过在工厂切割很长的管子而生产的管子长度,让我们进一步假设如果管子太短(即小于我们假设的置信区间下限),我们必须丢弃它,而且成本是太长管道的两倍,太长的管道可以送回修整长度。在这种情况下,我们可能希望左尾的概率是右尾的一半,以平衡管道长度错误的成本。