是否允许在混合模型中包含时间作为预测变量?

机器算法验证 r 时间序列 混合模式 非线性回归
2022-03-01 12:25:34

我一直认为时间不应该被用作回归(包括gam)的预测因子,因为那样的话,人们只会简单地“描述”趋势本身。如果一项研究的目的是找到温度等环境参数来解释动物活动的变化,那么我想知道,时间有什么用?作为未测量参数的代理?

可以在此处看到有关港湾海豚活动数据的一些时间趋势:->在进行 GAMM 时如何处理时间序列中的间隙?

我的问题是:当我在模型中包含时间(以儒略日为单位)时,所有其他参数的 90% 变得微不足道(mgcv 的 ts-shrinkage smoother 将它们踢出)。如果我留出时间,那么其中一些很重要......

问题是:是否允许时间作为预测指标(甚至可能需要?)还是会扰乱我的分析?

提前谢谢了

1个回答

时间允许;是否需要取决于您要建模的内容?您遇到的问题是,您有协变量,它们一起似乎适合数据中的趋势,Time 也可以做到这一点,但使用较少的自由度 - 因此它们被丢弃而不是 Time。

如果兴趣是对系统、响应和协变量之间的关系随时间进行建模,而不是对响应如何随时间变化进行建模,则不要将 Time 作为协变量。如果目标是对响应平均水平的变化进行建模,请包括时间但不包括协变量。从您所说的来看,您似乎想要前者,而不是后者,并且不应模型中包含 Time 。(但请考虑下面的额外信息。)

不过有几点需要注意。为了使理论成立,残差应该是 iid (或者如果您使用相关结构放宽独立性假设,则为 id )。如果您将响应建模为协变量的函数并且它们没有充分模拟数据中的任何趋势,那么残差将具有违反理论假设的趋势,除非拟合的相关结构可以应对这种趋势。

相反,如果您仅对响应中的趋势(仅包括时间)进行建模,则残差(关于拟合趋势)可能存在无法由趋势(时间)解释的系统变化,这也可能违反假设为残差。在这种情况下,您可能需要包含其他协变量来呈现残差 iid

为什么这是一个问题?那么,当您测试趋势分量是否显着,或者协变量的影响是否显着时,所使用的理论将假设残差是独立同分布的,如果它们不是独立同分布,那么假设将不成立,并且p 值会有偏差。

所有这一切的重点是,您需要对数据的所有各个组成部分进行建模,以便残差对于您使用的理论是独立同分布的,以测试拟合的组成部分是否显着,是否有效。

例如,考虑季节性数据,我们想要拟合一个描述数据长期变化趋势的模型。如果我们只对趋势建模而不是对季节性循环变化进行建模,我们将无法测试拟合的趋势是否显着,因为残差不会是独立同分布的。对于此类数据,我们需要拟合一个既有季节性分量又有趋势组件,以及仅包含季节性组件的空模型。然后,我们将使用广义似然比检验比较两个模型,以评估拟合趋势的显着性。这是在使用拟合的两个模型anova()的组件上完成的$lmegamm()