短时间序列值得建模吗?

机器算法验证 时间序列 回归 样本量 小样本
2022-03-19 17:49:09

这是一些上下文。我有兴趣确定两个环境变量(温度、营养水平)在 11 年期间如何影响响​​应变量的平均值。每年都有来自超过 10 万个地点的数据。

目标是确定在 11 年期间,响应变量的平均值是否对环境变量的变化做出了响应(例如,温度升高 + 养分增加 = 响应更大)。

不幸的是,由于响应是平均值(不看平均值,只是定期的年际变化会淹没信号),回归将是 11 个数据点(每年 1 个平均值),有 2 个解释变量。对我来说,即使是线性正回归也很难被认为是有意义的,因为数据集是如此之小(甚至不满足标称的 40 点/变量,除非关系非常强)。

我做出这个假设是否正确?谁能提供我可能遗漏的任何其他想法/观点?

PS:一些警告:如果不等待更多年,就无法获得更多数据。因此,可用的数据是我们真正必须使用的数据。

4个回答

少量数据点限制了您可以在数据上拟合的模型类型。然而,这并不一定意味着开始建模没有意义。如果数据很少,您将只能在效果强而分散较弱的情况下检测关联。

什么样的模型适合您的数据是另一个问题。您在标题中使用了“回归”一词。该模型应该在一定程度上反映您对该现象的了解。这似乎是一个生态环境,所以前一年可能也有影响。

我见过少于11个点的生态数据集,所以我想说如果你非常小心,你可以用你有限的数据得出一些有限的结论。

在给定实验设计参数的情况下,您还可以进行功效分析以确定可以检测到的效应有多小。

如果你做一些仔细的分析,你也可能不需要每年丢弃额外的变化

从根本上对数据建模(特别是对于时间序列)假设您以足够的频率收集数据以捕获感兴趣的现象。最简单的示例是正弦波 - 如果您以 n*pi 的频率收集数据,其中 n 是整数,那么您将只看到零,并且完全错过了正弦模式。有关于抽样理论的文章讨论了应该多久收集一次数据。

我不确定我是否理解这一点:“不幸的是,因为响应是平均值(不看平均值,只是定期的年际变化会淹没信号)”

通过仔细建模,在我看来,通过将其建模为面板数据可以获得很多好处。根据您的数据的空间范围,您的数据点在任何给定年份内所暴露的温度可能存在很大差异。平均所有这些变化似乎代价高昂。