机器算法验证 - 方差的卡方置信区间 - 吾爱随笔录

方差的卡方置信区间

机器算法验证置信区间优化卡方分布最高密度区

2022-03-17 10:54:55

例如，当使用卡方分布构建总体方差 $90\%$

\begin{aligned} P (a < \frac{(n - 1) S^{2}}{σ^{2}} < b) \\ = & P (\frac{\sum (\bar{X} - X_{i})^{2}}{b} < σ^{2} < \frac{\sum (\bar{X} - X_{i})^{2}}{a}) = 0.9, \\ where \frac{(n - 1) S^{2}}{σ^{2}} \sim χ_{n - 1}^{2} . \end{aligned}

$\begin{align} & P\left(a<\frac{(n-1)S^2}{\sigma^2}<b\right) \\ = {} & P\left(\frac{\sum(\bar{X}-X_i)^2}{b}<\sigma^2<\frac{\sum(\bar{X}-X_i)^2}{a}\right)=0.9, \\ & \text{ where } \frac{(n-1)S^2}{\sigma^2}\sim\chi_{n-1}^2. \end{align}$

在我的课程中，我们找到使得 $a, b$

P (χ_{n - 1}^{2} < a) = P (χ_{n - 1}^{2} > b) = 0.05.

$P(\chi_{n-1}^{2}<a)=P(\chi_{n-1}^{2}>b)=0.05.$

我的问题是，鉴于小为什么我们为双方概率加权到一侧，而不是平均分配，我们肯定会有更短的置信区间吗？ $n,$ $0.05$ $0.1$

4个回答

由于卡方分布是偏斜的，因此样本方差通常不在方差的 95% CI 的中心（对于正常数据）。

你说得对，你通常可以通过从一条尾巴取 2% 的概率和从另一条尾巴取 3% 的概率来获得更窄的间隔，而不是从每条尾巴取 2.5%。

出于实际目的，最窄的 95% 区间可能会将几乎所有的 5% 概率放在一条尾巴上，从而成为几乎单边的区间。这可能有用也可能没用。

因此，在一般实践中使用概率对称区间已或多或少成为标准。如果您没有显示概率对称区间，最好报告您不是，并解释原因。

示例： 且方差为的正态样本。 $n=20$ $\sigma^2 = 25.$

set.seed(2022)
x = rnorm(20, 50, 5)
v = var(x);  v
[1] 25.01484

的七个 2 边 95% CI及其宽度： $\sigma^2$

CI.1 = 19*v/qchisq(c(.97, .02), 19)
CI.1; diff(CI.1)
[1] 14.77971 55.47799
[1] 40.69828

CI.2 = 19*v/qchisq(c(.975, .025), 19)
CI.2; diff(CI.2)
[1] 14.46722 53.36339
[1] 38.89617    # probability-symmetric

CI.3 = 19*v/qchisq(c(.98, .03), 19)
CI.3; diff(CI.3)
[1] 14.10859 51.65860
[1] 37.55002

CI.4 = 19*v/qchisq(c(.99, .04), 19)
CI.4; diff(CI.4)
[1] 13.13265 49.00681
[1] 35.87417

CI.5 = 19*v/qchisq(c(.995, .045), 19)
CI.5; diff(CI.5)
[1] 12.31867 47.93333
[1] 35.61466   # shortest on this list           

CI.6 = 19*v/qchisq(c(.999, .049), 19)
CI.6; diff(CI.6)
[1] 10.84618 47.16119      
[1] 36.31501   # longer than above

CI.7 = 19*v/qchisq(c(.99999, .04999), 19)
CI.7; diff(CI.7)
[1]  8.284141 46.980289
[1] 38.69615   # 'almost' one sided

注意：相关的单边 95% CI 将给出上限根据应用程序，这可能正是您想要的。 $46.97848.$

对于单变量连续非对称分布，可以通过求解边界点的约束优化问题来找到最高密度区域 (HDR) 。你是对的，这涉及在尾巴上放置不相等的重量。您可以在O'Neill (2021)中找到对此问题的详细分析，包括对所讨论的优化问题及其解决方案的说明。本文还讨论了寻找方差的最佳置信区间的问题。

为了避免重新发明轮子，值得注意的是，所有标准单变量发行版的 HDR 都stat.extend可以在R. 可用的系列包括卡方分布、伽马分布和逆伽马分布。这些可用于手动计算最佳置信区间。或者，也有最优置信区间的直接函数，包括方差的最优置信区间。在下面的代码中，我们使用该CONF.var函数来计算一些模拟数据的最佳 95% 置信区间。

#Load library
library(stat.extend)

#Create some mock data (same data as used by BruceET)
set.seed(2022)
x = rnorm(20, 50, 5)

#Compute optimal confidence interval
#Assumes a mesokurtic distribution (kurt = 3)
CONF.var(x, alpha = 0.05, kurt = 3)

        Confidence Interval (CI) 
 
95.00% CI for variance parameter for infinite population 
Interval uses 20 data points from data x with sample variance = 25.0148 and 
assumed kurtosis = 3.0000 
Computed using nlm optimisation with 8 iterations (code = 1) 

[12.4006846357447, 48.0126609150707]

\begin{matrix} (1) & Pr (a < χ_{k}^{2} < b) = 0.9 \end{matrix}

$\Pr(a<\chi^2_k<b) = 0.9 \tag 1$

选择和的一种方法是选择它们以使这两点的卡方密度函数值彼此相等，同时使上面的线为真。 $a$ $b$ $(1)$

这确实给了你一个更短的置信区间，但它在数字上实现起来有些复杂，而且你所学课程的目的可能只是为了表明可以通过“反转”的置信区间" "关键量" $\sigma^2$ $(n-1)S^2/\sigma^2.$

一个答案是为什么不对两条尾巴使用相等的概率？假设我们不这样做，我们就会根据概率产生不对称的置信区间。让我们举一个极端的例子，要建立一个 95% 的置信区间，我们通常会将区间设置为低 2.5%，尾部高 2.5%。现在我们决定我们想要一个极端的例子，所以我们选择 0% 的左尾和 5% 的上尾重分布的右尾分布。那是什么？它是对 $X_i\geq$ 较大的置信区间上限。那么，为什么要平衡概率呢？因此，低于置信区间的答案的概率与高于置信区间的答案的概率相同，这给了我们一个平衡的或双尾的答案，即一个值在其中的概率置信区间。 $X_i\neq$

询问是否存在希望尾部概率不等的情况并非不合理。这是一个任意示例，其概率不是所寻求的最终答案。假设 x 轴度量是我们通过在工厂切割很长的管子而生产的管子长度，让我们进一步假设如果管子太短（即小于我们假设的置信区间下限），我们必须丢弃它，而且成本是太长管道的两倍，太长的管道可以送回修整长度。在这种情况下，我们可能希望左尾的概率是右尾的一半，以平衡管道长度错误的成本。

其它你可能感兴趣的问题

上一篇数据挖掘——如何判断提取的模式是否有意义？下一篇How to estimate P(x≤0)P(x≤0)nnxx