在整个数据上训练模型有意义吗?

数据挖掘 时间序列 回归 lstm 训练
2022-03-04 09:48:35

假设我在股票价格数据上训练一个 lstm 模型。

因此,对于第一次迭代,假设我已经在 80% 的数据上对其进行了训练,然后在其余 20% 的数据上对其进行了测试并获得了 rmse 值。

现在在这之后,在预测值之前再次训练整个数据是否有意义?

示例我有 2010 年到今天的 aapl 数据,我已经在 2010 年到 2020 年对其进行了训练,并从 2020 年到今天进行了测试并获得了 rmse 值。

现在在预测第二天的值之前,是否有必要在整个数据集上再次训练它,即从 2010 年到今天?

因为我观察到的是,在测试中,初始预测的误差比更远的预测要少,所以我想也许我应该在预测下一天或一周的值之前对整个数据集进行训练,因为我知道测试中模型的准确性较早的样品。

听起来不错还是有我不知道的缺点?

1个回答

是的,首先您选择最佳模型并使用训练和测试数据测量其性能,然后将这个最佳模型拟合到完整数据上。我们尝试使用尽可能多的数据以获得更好的结果。请参阅此 stackexchange 答案,他解释了这一点: https ://stats.stackexchange.com/a/366288

还有这篇文章解释了为什么使用训练/验证/测试拆分并使用完整数据来训练最终模型:https ://machinelearningmastery.com/train-final-machine-learning-model/

我希望这有帮助。