我们可以将我们的观察视为来自具有平均结构分量和协方差分量的某种分布。本质上我们有
y=Xβ+Zb+ϵ
其中和分别是固定效应和随机效应的设计矩阵,是无法解释的变化。XZϵ
我们可以通过在我们的模型中包含一些解释观察的空间或时间分离的东西来模拟空间或时间自相关。我们可以在模型的固定/随机效应部分或模型的协方差结构中做到这一点。
例如,在假设独立观察的简单线性回归模型中,我们有
y∼N(Xβ,σ2ϵI)
其中是一个单位矩阵(因此是 iid 假设)。我们可能会继续通过包含空间或时间相关效应,使用基函数,使得我们的模型变为IZb
y∼N(Xβ+Zb,σ2ϵI)
这被称为一阶形式。
或者,我们在随机效应的协方差函数中包含空间或时间相关性,在这种情况下,我们的模型可能是
y=Xβ+η+ϵ
其中和其中随机效应导致相关错误,导致ϵ∼N(0,σ2ϵI)η∼N(0,σ2αR)η
y∼N(Xβ,σ2ϵI+σ2αR)
这里是通过相关函数指定的,例如您提到的指数相关函数。R
这被称为二阶形式。二阶形式可能更常见,特别是在生态和环境科学的空间统计中,但一阶形式也很有用。
这两种形式对于某些模型是等价的,其中中的基函数可以从相关函数或矩阵导出。ZR
以上内容抄自 Hefley 等人的部分(已提交),可在 arXiv 上作为预印本获得。
(第三种形式可能是,这是with产生的。)y∼N(Xβ,σ2ϵR)gamm()
correlation = corFOO()
gam()
至于我为什么提到这一点,我相信您可以通过从克里金的样条等效项派生的一阶形式模型来实现您想要的。
为此,您将在 R 中使用以下模型:
mod <- gam(y ~ x1 + x2 + s(latitude, longitude, bs = "gp", m = 2),
family = betar(link='logit'),
data = data)
这里隐含的是样条曲线将被视为随机效应(任何惩罚零空间的组件作为固定效应),但对于非通用系列函数,您可以通过method = "REML"
或请求此"ML"
。,m = 2
这选择了一个幂指数相关函数,其范围,根据 Kammann 和 Wand (2003) 的方法从数据中估计:r
r^=max1≤i,j≤n∥xi−xj∥
和 power = 1。如果要指定范围和/或幂,则需要向m
:提供一个向量,m = c(2, 100, 1)
这将是一个幂指数函数,范围参数为 100,幂m
为 1。以向量形式指定给出不同的相关函数,包括球面和三个 Matern 协方差函数)。
现在的假设是,给定x
和y
随机效应(由高斯过程样条 == 克里金给出)和任何模型参数,残差是独立同分布的,这是否取决于高斯过程的灵活性(克里金)模型的一部分。Z
使用这种方法,我认为不需要指定块,您必须手动指定范围参数,除非您希望将其作为样本中任意两点之间的最大间隔。实现的细节在?mgcv:::smooth.construct.gp.smooth.spec
您可以在 Hefley 等人的论文(已提交)中阅读有关一阶和二阶形式的更多信息。
我还要补充一点,在实践中,您已经使用薄板样条进行定位也是一阶形式模型,因此您可能无法使用我上面提到的 GP 样条做更多或更好. Hefley 等人(已提交)中的信息可能会指导您采用替代方法来处理此模型,也许使用贝叶斯方法,您可以更好地控制如何准确指定空间结构。
Hefley, TJ, Broms, KM, Brost, BM, Buderman, FE, Kay, SL, Scharf, HR, ... Hooten, MB(2016 年 6 月 17 日)。生态数据自相关建模的基函数方法。arXiv [stat.AP]。取自http://arxiv.org/abs/1606.05658
Kammann, EE 和 Wand, MP (2003)。地加性模型。皇家统计学会杂志。系列 C,应用统计,52(1),1-18。http://doi.org/10.1111/1467-9876.00385