在 GLMM 中制作新变量而不是校正时间自相关。它是一个有效的替代方案吗?

机器算法验证 回归 物流 自相关 预测器
2022-03-15 02:12:38

我正在做一些森林干扰研究,其目的是预测不同地点(海拔、坡度)和林分特性(年龄、木材体积)的林分发生风害的概率。我正在使用带有 R 包“lme4”的逻辑回归(因为二项式响应变量:0-1)。

我的数据集是这样的(整个数据集中有几千个森林):

stand_id    year    damage  altitude    slope   age volume  occurrence
123 2001    0   900 15  100 235 0
123 2002    0   900 15  101 242 0
123 2003    0   900 15  102 249 0
123 2004    3.6 900 15  103 256 1
123 2005    0   900 15  104 259.4   0
123 2006    2.1 900 15  105 266.4   1
123 2007    1.8 900 15  106 271.3   1
123 2008    0   900 15  107 276.5   0
123 2009    0   900 15  108 283.5   0
123 2010    0   900 15  109 290.5   0
124 2001    0   1100    10  80  172 0
124 2002    0   1100    10  81  181 0
124 2003    6.2 1100    10  82  190 1
124 2004    8.9 1100    10  83  192.8   1
124 2005    2.4 1100    10  84  192.9   1
124 2006    0   1100    10  85  199.5   0
124 2007    0   1100    10  86  208.5   0
124 2008    5.5 1100    10  87  217.5   1
124 2009    2.4 1100    10  88  221 1
124 2010    0   1100    10  89  227.6   0

. . .

如果损伤大于 0,则响应变量(发生)的值为 1,否则为 0。模型为:发生率 ~ 高度 + 坡度 + 年龄 + 体积

如您所见,所有展位的所有年份都有 10 年的测量值。由于我们对同一个林分有多个测量值,因此必须将(林分的)随机效应添加到模型中,这将是因子“stand_id”。关于我对统计学的理解,空间自相关不再是问题,但响应变量(残差)的时间自相关仍然需要处理。我检查了它的自相关函数(acf),它在第二年很明显(acf 值约为 0.1),然后它就消失了。

许多专家建议对时间自相关结构进行建模,并将其用作先前拟合(逻辑回归)模型的校正。我觉得这有点乏味和过于复杂(也不能简单地在 lme4 中做),因此我的问题是:

如果我创建一个新的预测变量,即前一年的损害(因为 acf)并在模型中使用它,这是否是一个有效的选择?为了更清楚,这是新的数据集(添加了最后一列):

stand_id year damage  altitude slope    age   volume occurrence dmg_prev
123 2001    0   900 15  100 235 0   0
123 2002    0   900 15  101 242 0   0
123 2003    0   900 15  102 249 0   0
123 2004    3.6 900 15  103 256 1   0
123 2005    0   900 15  104 259.4   0   3.6
123 2006    2.1 900 15  105 266.4   1   0
123 2007    1.8 900 15  106 271.3   1   2.1
123 2008    0   900 15  107 276.5   0   1.8
123 2009    0   900 15  108 283.5   0   0
123 2010    0   900 15  109 290.5   0   0
124 2001    0   1100    10  80  172 0   0
124 2002    0   1100    10  81  181 0   0
124 2003    6.2 1100    10  82  190 1   0
124 2004    8.9 1100    10  83  192.8   1   6.2
124 2005    2.4 1100    10  84  192.9   1   8.9
124 2006    0   1100    10  85  199.5   0   2.4
124 2007    0   1100    10  86  208.5   0   0
124 2008    5.5 1100    10  87  217.5   1   0
124 2009    2.4 1100    10  88  221 1   5.5
124 2010    0   1100    10  89  227.6   0   2.4

. . .

使用这个新变量 (dmg_prev) 运行模型,结果也很重要,如果我是对的,它还携带有关时间自相关的信息。因此不再需要额外的修正。有人可以验证吗?

非常感谢您提前提供的帮助!

0个回答
没有发现任何回复~