这个问题有三个子部分,回答每个子部分可能不需要大量的文字。我希望没关系。
我正在尝试使用 ML 来理解时间序列预测。我有目标变量,并假设另外两个变量(例如,如果是商品的需求,可以是商品的类型或商品的价格等)。另外,假设我使用的是随机森林模型,因为我读过它通常开箱即用。
i) 据我了解,如果我将作为预测变量,模型可能只是学习预测,例如与滞后存在自相关。鉴于此,将作为特征包含在内是不是一个坏主意?
ii) 每个预测变量可能具有一个或其他典型的时间序列特征,如非平稳性、自相关或季节性。如果任何预测变量具有任何特殊特征,我是否必须遵循或转换(到预测变量)的一些特殊方法?
iii) 通常,进行此类预测的最佳实践是什么?我目前的想法是:使用作为预测变量而不进行转换。使用带有网格搜索参数的 ARIMA 来拟合训练数据并进行验证。用它作为基线。最后,使用随机森林预测差分时间序列 ,使用作为预测变量并与基线进行比较。我在这里遗漏了什么还是应该考虑一些额外的东西?
提前致谢!