Bootstrap:估计值超出置信区间

机器算法验证 r 置信区间 引导程序 偏见
2022-03-21 10:43:51

我使用混合模型(几个具有交互作用的变量和一个随机变量)进行了引导。我得到了这个结果(只是部分):

> boot_out

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = a001a1, statistic = bootReg, R = 1000)

Bootstrap Statistics :
          original        bias     std. error
t1*   4.887383e+01 -1.677061e+00 4.362948e-01
t2*   3.066825e+01  1.264024e+00 5.328387e-01
t3*   8.105422e+01  2.368599e+00 6.789091e-01
t4*   1.620562e+02  4.908711e+00 1.779522e+00
......

现在,我想获得截距的置信区间:

> boot.ci(boot_out,type=c("norm","basic","perc"), index=1)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = boot_out, type = c("norm", "basic", 
"perc"), index = 1)

Intervals : 
Level      Normal              Basic              Percentile     
95%   (49.70, 51.41 )   (49.70, 51.41 )   (46.34, 48.05 )  
Calculations and Intervals on Original Scale

偏差校正估计为:

48.873 -1.677
1 47.196

我遇到的问题是正常和基本 CI 超出了估计值(原始和更正)。我只是想知道如何应对。

更新 1:
是一个类似的问题,有很多回复。

1个回答

您面临的困难来自隐含的数学。位置估计器或区间估计器的中心可以被认为是分布上的成本函数的最小化。高斯上的样本均值最小化二次损失,而中值最小化高斯上的绝对线性损失函数。尽管在总体中它们位于同一点,但它们是使用不同的成本函数被发现的。

我们给你一个算法并说“做这个”,但在算法开发之前,有人解决了一个优化问题。

您已经应用了四种不同的成本函数,为您提供了三个区间和一个点估计器。由于成本函数不同,它们为您提供不同的点和间隔。除了手动统一方法之外,没有什么可做的。

您需要找到底层论文并查看底层代码以了解哪些映射到哪些类型的问题。

很抱歉这么说,但你被软件出卖了。它完成了它的工作,平均来说效果很好,但是你得到了软件无法运行的示例。或者,更确切地说,它运行良好,您需要通过文献实际向后工作以确定它真正在做什么。