我正在做一些森林干扰研究,其目的是预测不同地点(海拔、坡度)和林分特性(年龄、木材体积)的林分发生风害的概率。我正在使用带有 R 包“lme4”的逻辑回归(因为二项式响应变量:0-1)。
我的数据集是这样的(整个数据集中有几千个森林):
stand_id year damage altitude slope age volume occurrence
123 2001 0 900 15 100 235 0
123 2002 0 900 15 101 242 0
123 2003 0 900 15 102 249 0
123 2004 3.6 900 15 103 256 1
123 2005 0 900 15 104 259.4 0
123 2006 2.1 900 15 105 266.4 1
123 2007 1.8 900 15 106 271.3 1
123 2008 0 900 15 107 276.5 0
123 2009 0 900 15 108 283.5 0
123 2010 0 900 15 109 290.5 0
124 2001 0 1100 10 80 172 0
124 2002 0 1100 10 81 181 0
124 2003 6.2 1100 10 82 190 1
124 2004 8.9 1100 10 83 192.8 1
124 2005 2.4 1100 10 84 192.9 1
124 2006 0 1100 10 85 199.5 0
124 2007 0 1100 10 86 208.5 0
124 2008 5.5 1100 10 87 217.5 1
124 2009 2.4 1100 10 88 221 1
124 2010 0 1100 10 89 227.6 0
. . .
如果损伤大于 0,则响应变量(发生)的值为 1,否则为 0。模型为:发生率 ~ 高度 + 坡度 + 年龄 + 体积
如您所见,所有展位的所有年份都有 10 年的测量值。由于我们对同一个林分有多个测量值,因此必须将(林分的)随机效应添加到模型中,这将是因子“stand_id”。关于我对统计学的理解,空间自相关不再是问题,但响应变量(残差)的时间自相关仍然需要处理。我检查了它的自相关函数(acf),它在第二年很明显(acf 值约为 0.1),然后它就消失了。
许多专家建议对时间自相关结构进行建模,并将其用作先前拟合(逻辑回归)模型的校正。我觉得这有点乏味和过于复杂(也不能简单地在 lme4 中做),因此我的问题是:
如果我创建一个新的预测变量,即前一年的损害(因为 acf)并在模型中使用它,这是否是一个有效的选择?为了更清楚,这是新的数据集(添加了最后一列):
stand_id year damage altitude slope age volume occurrence dmg_prev
123 2001 0 900 15 100 235 0 0
123 2002 0 900 15 101 242 0 0
123 2003 0 900 15 102 249 0 0
123 2004 3.6 900 15 103 256 1 0
123 2005 0 900 15 104 259.4 0 3.6
123 2006 2.1 900 15 105 266.4 1 0
123 2007 1.8 900 15 106 271.3 1 2.1
123 2008 0 900 15 107 276.5 0 1.8
123 2009 0 900 15 108 283.5 0 0
123 2010 0 900 15 109 290.5 0 0
124 2001 0 1100 10 80 172 0 0
124 2002 0 1100 10 81 181 0 0
124 2003 6.2 1100 10 82 190 1 0
124 2004 8.9 1100 10 83 192.8 1 6.2
124 2005 2.4 1100 10 84 192.9 1 8.9
124 2006 0 1100 10 85 199.5 0 2.4
124 2007 0 1100 10 86 208.5 0 0
124 2008 5.5 1100 10 87 217.5 1 0
124 2009 2.4 1100 10 88 221 1 5.5
124 2010 0 1100 10 89 227.6 0 2.4
. . .
使用这个新变量 (dmg_prev) 运行模型,结果也很重要,如果我是对的,它还携带有关时间自相关的信息。因此不再需要额外的修正。有人可以验证吗?
非常感谢您提前提供的帮助!