机器算法验证 - 在预测顺序数据时，最好使用自回归模型还是构建更传统的具有特征的 nxp 数据集？ - 吾爱随笔录

在预测顺序数据时，最好使用自回归模型还是构建更传统的具有特征的 nxp 数据集？

机器算法验证时间序列造型预测

2022-04-16 12:59:09

在预测单个时间序列数据向量时，我熟悉自回归模型的使用。是否有人熟悉更传统的建模方法，即创建一组特征，例如一周中的某天、一天中的时间、一个月中的某天、假期的指标，然后运行回归或随机森林等模型这个？这些方法中的每一个都有优点/缺点吗？

我的主要任务是根据大量历史数据预测每小时请求。有强劲的盘中趋势以及相当强劲的每周趋势。到目前为止，我们一直在使用同一天同一小时的过去 4 个数据点的平均值（因此对于本周五下午 4 点，我们将在下午 4 点平均最后 4 个周五的计数），这出奇地好。是否值得建立一个更复杂的模型？我是否必须在每小时之间不断地重新训练它，或者几个月的每小时数据是否足以在重新训练之前预测几天？我确定我遗漏了一些问题，因此您可以指出我的任何建议和文献将不胜感激。

1个回答

我还没有在处理非参数时间序列预测的文献中找到令人满意的研究方向。接下来是我的胶带方法。

执行非参数时间序列分析时普遍存在的问题是：我真正关心的是什么？大多数问题通过要求置信区间变得更复杂，或者通过分类器“这是上升吗？”变得更简单。

时间序列预测的通用方法是构建滞后值的特征矩阵，如果您的值严格为正，则可能执行对数变换，然后对非参数回归模型进行时间交叉验证。

使用这种方法，可以有多种选择来进行跨期预测。您可以对模型的输出进行递归，也可以使用多输出回归模型。在该范围内生成置信区间有多种选择。您可以交叉验证标准误差，然后将其乘以预测范围，或者您可以使用非参数多输出模型来生成与固定长度范围的每个元素相关的置信区间。

如果您使用的是内核方法，则可能会根据它们的新近程度来加权特征。如果您使用的方法使用某种形式的梯度下降，您可以使用之前找到的参数作为热启动，然后在观察新数据点后进行训练。这迅速加快了收敛速度。在线方法可以非常成功地解决某些问题，同时提供很好的复杂性保证并且永远不会过时。

关于：

是否值得建立一个更复杂的模型？不要修复没有损坏的东西。

我是否必须在每小时之间不断地重新训练它，或者几个月的每小时数据是否足以在重新训练之前预测几天？有关尝试的一些方法，请参见上文。

其它你可能感兴趣的问题

上一篇世界杯预测是否可以检验？下一篇如何测试 ARIMA 系数？