非线性混合模型 (nlme) 预测的置信区间

机器算法验证 r 混合模式 置信区间 lme4-nlme
2022-01-26 13:26:50

我想获得非线性混合nlme模型预测的 95% 置信区间。由于没有提供任何标准来做到这一点nlme,我想知道使用“人口预测区间”的方法是否正确,正如Ben Bolker 的书中章节在模型拟合最大似然的上下文中概述的那样,基于以下思想根据拟合模型的方差-协方差矩阵对固定效应参数进行重采样,基于此模拟预测,然后取这些预测的 95% 的百分位数以获得 95% 的置信区间?

执行此操作的代码如下所示:(我在这里使用nlme帮助文件中的“Lobolly”数据)

library(effects)
library(nlme)
library(MASS)

fm1 <- nlme(height ~ SSasymp(age, Asym, R0, lrc),
    data = Loblolly,
    fixed = Asym + R0 + lrc ~ 1,
    random = Asym ~ 1,
    start = c(Asym = 103, R0 = -8.5, lrc = -3.3))

xvals=seq(min(Loblolly$age),max(Loblolly$age),length.out=100)
nresamp=1000
pars.picked = mvrnorm(nresamp, mu = fixef(fm1), Sigma = vcov(fm1)) # pick new parameter values by sampling from multivariate normal distribution based on fit
yvals = matrix(0, nrow = nresamp, ncol = length(xvals))

for (i in 1:nresamp) 
{
    yvals[i,] = sapply(xvals,function (x) SSasymp(x,pars.picked[i,1], pars.picked[i,2], pars.picked[i,3]))
} 

quant = function(col) quantile(col, c(0.025,0.975)) # 95% percentiles
conflims = apply(yvals,2,quant) # 95% confidence intervals

现在我有了置信限度,我创建了一个图表:

meany = sapply(xvals,function (x) SSasymp(x,fixef(fm1)[[1]], fixef(fm1)[[2]], fixef(fm1)[[3]]))

par(cex.axis = 2.0, cex.lab=2.0)
plot(0, type='n', xlim=c(3,25), ylim=c(0,65), axes=F, xlab="age", ylab="height");
axis(1, at=c(3,1:5 * 5), labels=c(3,1:5 * 5)) 
axis(2, at=0:6 * 10, labels=0:6 * 10)   

for(i in 1:14)
{
    data = subset(Loblolly, Loblolly$Seed == unique(Loblolly$Seed)[i])   
    lines(data$age, data$height, col = "red", lty=3)
}

lines(xvals,meany, lwd=3)
lines(xvals,conflims[1,])
lines(xvals,conflims[2,])

这是以这种方式获得的 95% 置信区间的图:

所有数据(红线)、均值和置信限(黑线)

这种方法是否有效,或者是否有任何其他或更好的方法来计算非线性混合模型预测的 95% 置信区间?我不完全确定如何处理模型的随机效应结构......是否应该平均超过随机效应水平?或者是否可以为一个普通主题设置置信区间,这似乎更接近我现在的置信区间?

1个回答

你在这里所做的看起来很合理。简短的回答是,在大多数情况下,从混合模型和非线性模型预测置信区间的问题或多或少是正交的,也就是说,你需要担心这两组问题,但他们不需要(我知道of) 以任何奇怪的方式进行交互。

  • 混合模型问题:您是要在总体还是群体层面进行预测?您如何解释随机效应参数的可变性?您是否以小组级别的观察为条件?
  • 非线性模型问题:参数的抽样分布是否正常?传播误差时如何考虑非线性?

在整个过程中,我将假设您在总体水平上进行预测并将置信区间构建为总体水平 - 换句话说,您正在尝试绘制典型组的预测值,而不包括您的置信度中的组间变化间隔。这简化了混合模型问题。下图比较了三种方法(代码转储见下文):

  • 人口预测区间:这是您在上面尝试的方法。它假设模型是正确的,并且固定效应参数的抽样分布是多元正态分布;它还忽略了随机效应参数的不确定性
  • bootstrapping:我实现了分层引导;我们在组级别和组内重新采样。组内抽样对残差进行采样并将它们添加回预测。这种方法做出的假设最少。
  • delta方法:这假设采样分布的多元正态性和非线性足够弱以允许二阶近似。

我们也可以做参数引导...

这是与数据一起绘制的 CI...

在此处输入图像描述

...但我们几乎看不到差异。

通过减去预测值来放大(red=bootstrap,blue=PPI,cyan=delta 方法)

在此处输入图像描述

在这种情况下,bootstrap 间隔实际上是最窄的(例如,可能参数的采样分布实际上比 Normal 稍微细尾),而 PPI 和 delta 方法间隔彼此非常相似。

library(nlme)
library(MASS)

fm1 <- nlme(height ~ SSasymp(age, Asym, R0, lrc),
            data = Loblolly,
            fixed = Asym + R0 + lrc ~ 1,
            random = Asym ~ 1,
            start = c(Asym = 103, R0 = -8.5, lrc = -3.3))

xvals <-  with(Loblolly,seq(min(age),max(age),length.out=100))
nresamp <- 1000
## pick new parameter values by sampling from multivariate normal distribution based on fit
pars.picked <- mvrnorm(nresamp, mu = fixef(fm1), Sigma = vcov(fm1))

## predicted values: useful below
pframe <- with(Loblolly,data.frame(age=xvals))
pframe$height <- predict(fm1,newdata=pframe,level=0)

## utility function
get_CI <- function(y,pref="") {
    r1 <- t(apply(y,1,quantile,c(0.025,0.975)))
    setNames(as.data.frame(r1),paste0(pref,c("lwr","upr")))
}

set.seed(101)
yvals <- apply(pars.picked,1,
               function(x) { SSasymp(xvals,x[1], x[2], x[3]) }
)
c1 <- get_CI(yvals)

## bootstrapping
sampfun <- function(fitted,data,idvar="Seed") {
    pp <- predict(fitted,levels=1)
    rr <- residuals(fitted)
    dd <- data.frame(data,pred=pp,res=rr)
    ## sample groups with replacement
    iv <- levels(data[[idvar]])
    bsamp1 <- sample(iv,size=length(iv),replace=TRUE)
    bsamp2 <- lapply(bsamp1,
        function(x) {
        ## within groups, sample *residuals* with replacement
        ddb <- dd[dd[[idvar]]==x,]
        ## bootstrapped response = pred + bootstrapped residual
        ddb$height <- ddb$pred +
            sample(ddb$res,size=nrow(ddb),replace=TRUE)
        return(ddb)
    })
    res <- do.call(rbind,bsamp2)  ## collect results
    if (is(data,"groupedData"))
        res <- groupedData(res,formula=formula(data))
    return(res)
}

pfun <- function(fm) {
    predict(fm,newdata=pframe,level=0)
}

set.seed(101)
yvals2 <- replicate(nresamp,
                    pfun(update(fm1,data=sampfun(fm1,Loblolly,"Seed"))))
c2 <- get_CI(yvals2,"boot_")

## delta method
ss0 <- with(as.list(fixef(fm1)),SSasymp(xvals,Asym,R0,lrc))
gg <- attr(ss0,"gradient")
V <- vcov(fm1)
delta_sd <- sqrt(diag(gg %*% V %*% t(gg)))
c3 <- with(pframe,data.frame(delta_lwr=height-1.96*delta_sd,
                             delta_upr=height+1.96*delta_sd))

pframe <- data.frame(pframe,c1,c2,c3)

library(ggplot2); theme_set(theme_bw())
ggplot(Loblolly,aes(age,height))+
    geom_line(alpha=0.2,aes(group=Seed))+
    geom_line(data=pframe,col="red")+
    geom_ribbon(data=pframe,aes(ymin=lwr,ymax=upr),colour=NA,alpha=0.3,
                fill="blue")+
    geom_ribbon(data=pframe,aes(ymin=boot_lwr,ymax=boot_upr),
                colour=NA,alpha=0.3,
                fill="red")+
    geom_ribbon(data=pframe,aes(ymin=delta_lwr,ymax=delta_upr),
                colour=NA,alpha=0.3,
                fill="cyan")


ggplot(Loblolly,aes(age))+
    geom_hline(yintercept=0,lty=2)+
    geom_ribbon(data=pframe,aes(ymin=lwr-height,ymax=upr-height),
                colour="blue",
                fill=NA)+
    geom_ribbon(data=pframe,aes(ymin=boot_lwr-height,ymax=boot_upr-height),
                colour="red",
                fill=NA)+
    geom_ribbon(data=pframe,aes(ymin=delta_lwr-height,ymax=delta_upr-height),
                colour="cyan",
                fill=NA)