用于 R 中剩余空间自相关的 beta 回归

机器算法验证 自相关 空间的 贝塔分布 广义加法模型 毫克CV
2022-03-08 01:01:31

我有关于区间的数据(0,1),我使用 R 中的包使用 beta 回归进行建模betareg。这很好用。但是,我想考虑残差的某种程度的空间自相关。我过去曾使用R 中的包gls函数为线性模型完成此操作。nlme

我能得到的最接近的方法是使用 R 包中的gam函数mgcv。我可以指定一个 beta 分布并拟合一个额外的术语,它是纬度和经度的样条函数。代码在这里:

library(mgcv)
mod <- gam(y ~ x1 + x2 + s(latitude, longitude), 
           family = betar(link='logit'), 
           data = data)

然而,这适合y空间关系,而不是残差。我该如何去拟合残差?我可以通过使用包中的相关结构添加相关结构并添加无信息的随机效应来做到这一点gammmgcv但是我很确定这与 beta 回归不能很好地配合。我收到的所有输出都是无意义的(即 (-) r2 值,与空间自相关建模之前的输出相比,我获得的 r2 为 0.20-0.30。它还警告说,分布的“扩展系列”mgcv是不兼容gamm。所以,这不起作用也就不足为奇了。

mod <- gamm(y ~ x1 + x2,  
            random = list(rando=~1), 
            family = betar(link='logit'), 
            correlation =  corExp(form = ~longitude + latitude, nugget=T),
            data = data)

有没有办法解释 beta 分布响应变量中的自相关?我想这可能很难,因为残差的拟合幅度并不总是分布的一侧和另一侧一样大。

1个回答

我们可以将我们的观察视为来自具有平均结构分量和协方差分量的某种分布。本质上我们有

y=Xβ+Zb+ϵ

其中分别是固定效应和随机效应的设计矩阵,是无法解释的变化。XZϵ

我们可以通过在我们的模型中包含一些解释观察的空间或时间分离的东西来模拟空间或时间自相关。我们可以在模型的固定/随机效应部分或模型的协方差结构中做到这一点。

例如,在假设独立观察的简单线性回归模型中,我们有

yN(Xβ,σϵ2I)

其中是一个单位矩阵(因此是 iid 假设)。我们可能会继续通过包含空间或时间相关效应,使用基函数,使得我们的模型变为IZb

yN(Xβ+Zb,σϵ2I)

这被称为一阶形式。

或者,我们在随机效应的协方差函数中包含空间或时间相关性,在这种情况下,我们的模型可能是

y=Xβ+η+ϵ

其中其中随机效应导致相关错误,导致ϵN(0,σϵ2I)ηN(0,σα2R)η

yN(Xβ,σϵ2I+σα2R)

这里是通过相关函数指定的,例如您提到的指数相关函数。R

这被称为二阶形式。二阶形式可能更常见,特别是在生态和环境科学的空间统计中,但一阶形式也很有用。

这两种形式对于某些模型是等价的,其中中的基函数可以从相关函数或矩阵导出。ZR

以上内容抄自 Hefley 等人的部分(已提交),可在 arXiv 上作为预印本获得。

(第三种形式可能是,这是with产生的。)yN(Xβ,σϵ2R)gamm()correlation = corFOO()

gam()至于我为什么提到这一点,我相信您可以通过从克里金的样条等效项派生的一阶形式模型来实现您想要的。

为此,您将在 R 中使用以下模型:

mod <- gam(y ~ x1 + x2 + s(latitude, longitude, bs = "gp", m = 2), 
           family = betar(link='logit'), 
           data = data)

这里隐含的是样条曲线将被视为随机效应(任何惩罚零空间的组件作为固定效应),但对于非通用系列函数,您可以通过method = "REML"或请求此"ML"m = 2这选择了一个幂指数相关函数,其范围,根据 Kammann 和 Wand (2003) 的方法从数据中估计:r

r^=max1i,jnxixj

和 power = 1。如果要指定范围和/或幂,则需要向m:提供一个向量,m = c(2, 100, 1)这将是一个幂指数函数,范围参数为 100,幂m为 1。以向量形式指定给出不同的相关函数,包括球面和三个 Matern 协方差函数)。

现在的假设是,给定xy随机效应(由高斯过程样条 == 克里金给出)和任何模型参数,残差是独立同分布的,这是否取决于高斯过程的灵活性(克里金)模型的一部分。Z

使用这种方法,我认为不需要指定块,您必须手动指定范围参数,除非您希望将其作为样本中任意两点之间的最大间隔。实现的细节在?mgcv:::smooth.construct.gp.smooth.spec

您可以在 Hefley 等人的论文(已提交)中阅读有关一阶和二阶形式的更多信息。

我还要补充一点,在实践中,您已经使用薄板样条进行定位也是一阶形式模型,因此您可能无法使用我上面提到的 GP 样条做更多或更好. Hefley 等人(已提交)中的信息可能会指导您采用替代方法来处理此模型,也许使用贝叶斯方法,您可以更好地控制如何准确指定空间结构。

Hefley, TJ, Broms, KM, Brost, BM, Buderman, FE, Kay, SL, Scharf, HR, ... Hooten, MB(2016 年 6 月 17 日)。生态数据自相关建模的基函数方法。arXiv [stat.AP]。取自http://arxiv.org/abs/1606.05658

Kammann, EE 和 Wand, MP (2003)。地加性模型。皇家统计学会杂志。系列 C,应用统计,52(1),1-18。http://doi.org/10.1111/1467-9876.00385