我一直在阅读有关时间序列预测的文章。
它们都从相同的假设开始:时间序列预测不能被视为回归/分类问题。它是时间相关的,这意味着我们在时间 t 的目标 y 取决于 y 在 t-1 时的值。
动机通常伴随着一些显示一些趋势/季节性的示例数据。此外,其他支持点是:
- 数据分布(均值、方差)随时间而变化。
- 传统的训练/测试拆分没有意义,因为用 9 月的数据预测 1 月的数据有什么意义?
很公平。但让我试着指出这个例子。假设我们有一个简单的时间戳,可变数据集,我们试图预测 t+1 的值
| 时间戳 | 价值 |
| 01/01/2019| 10 |
| 01/02/2019| 12 |
...
| 2019 年 12 月 31 日| ???|
我们所知道的是,没有趋势它是非常每周循环的,这意味着 t 的值可能取决于它在 t-7 天的值。我们还知道,根据是一周中的某一天还是周末,数据会相应地发生变化。
是什么阻止我使用一些基本的特征工程并将示例数据转换如下?
| 时间戳 | value_at_t_minus_7 | day_of_week | 价值 |
| 01/01/2019| 11 | 02 | 10 |
| 01/02/2019| 12 | 03 | 12 |
...
| 2019 年 12 月 31 日| 10 | 02 | ???|
从形式上看,它与时间无关,但它的滞后值和星期几信息之间的相关性应该能把我带到我想去的地方,能够使用现在经典和灵活的方法,如随机森林、XGB 和拆分训练和测试(当然要保留保留集进行验证)以很好地了解我的模型的性能。
任何人都可以以适当的动机提供他们的意见支持吗?
谢谢!