假设我有一个小村庄人口的每日数据,由下式给出,以及与未来人口规模相关的各种因素的每日数据,由向量给出. 这些解释变量包括未转换的变量以及经过设计以提供长期信息的特征(例如,其中一个变量捕获了过去 30 天内的死亡人数)。我收集这些数据已经 8 年了。
我的目标是预测提前 1,2,3,...,365 天。我预计长期预测与短期预测不同。如果假期即将到来,我可能会预计几个月后会出现下降高峰(人们访问这座城市),但如果有人在临终前,那么我预计几天后会出现下降高峰。
由于人口足够少,通常在对于所讨论的预测范围,我将使用多类别响应变量分类模型,该模型将概率分配给正在观察的各种类别标签。
我的问题集中在构建变化预测时需要考虑的具体事项到在哪里很大(例如 100 天)。
基本上会有最可怕的自相关结构在这些时间范围内。如果有人在那天死去, 他们也死了, 表示一串或者将包含相同的信息。
这些查询结果:
- 在我的回答中,有哪些方法可以处理这种巨大的自相关结构。这甚至是一个问题吗?
- 除了我已经提出的用于预测这些视野的方法之外,是否有替代方法(除了典型的机器学习方法,例如我已经在使用的随机森林)。
- 任何其他方便的建议。