对于时间序列问题,为什么使用时间序列模型优于没有显式时间组件的模型?

机器算法验证 机器学习 时间序列 预测
2022-04-02 03:34:48

高级问题:

将数据建模为时间序列有什么优势?

对于涉及(多变量)时间序列数据的问题,为什么将问题建模为时间序列问题是有用的,

time       | value1 | value2
-----------|--------------
2020-01-01 | 1      | 3
2020-01-02 | 2      | 3
2020-01-03 | 3      | 1
...        | ...    | ...

而不是经典的表格格式?

day of the month | month | year | value1 | value2
01               | 01    | 2020 | 1      | 3     
02               | 01    | 2020 | 2      | 3
03               | 01    | 2020 | 3      | 1

因此,当我想预测我的时间序列时,对于时间序列方法,我会使用模型作为 ARIMA 或 RNN。对于“经典”格式,我会使用线性回归或决策树之类的东西。

为什么更喜欢时间序列模型?

我的假设:您考虑到自相关,并给予“最近”观察更多的权重。它还考虑了排序。

但是“经典”模型是否也能捕捉到这些关系?但是结合了三个变量?

使用时间序列模型的主要原因是什么?直觉上,这对我来说很清楚。但我无法真正解释它。谁能帮我澄清一下

3个回答

是的,原则上你的“经典”方法也会捕捉到周期性和自相关。毕竟,拟合 AR 时间序列模型与 OLS 根据实际值的滞后值回归实际值并没有太大区别。然而:

  • 假设您以日、月和年作为预测变量运行标准线性回归。您的回归将无法理解预测变量设置 (1, 3, 2020) 与 (29, 2, 2020) 非常相似。是的,第三个预测变量是相同的,但其他两个不是,拟合的差异将是将此与 (28, 2, 2020) 与 (29, 2, 2020) 的预测变量设置的拟合差异进行比较,这只是,尽管两者一对预测器设置都相隔一天。28β^Day+β^Monthβ^Day

    此外,回归没有自回归的概念。

    当然,您可以手工制作回归,方法是包含一个日计数器来解释上述第一个事实,并包含结果的滞后值来解释自回归。但这将是很多工作,而且实际上在数学上并不是最优的。

  • 现在假设您查看决策树,或者可能是随机森林。是的,这应该能够学习预测变量之间的相互作用,例如上面的 (1, 3, 2020) 和 (29, 2, 2020) 之间的差异。但是,这样做需要大量数据。比您仅使用时间序列方法要多得多。

底线:您可以为工作使用特定工具(时间序列分析),或调整其他工具(具有大量预测变量调整的回归),或者使用非常通用的工具,然后需要大量数据(CARTs 和 Random森林)。

从表面上看,时间序列方法在数学上更方便,而人类日期更方便呈现数据/结果。

正如您正确指出的那样,在更深层次上,可以使用日、月和年作为三个独立变量,特别是如果有理由认为存在周期性变化(例如,季节性变化或与太阳活动周期相关) )。它是改善还是恶化取决于a)用于分析时间序列的方法(它是否能够捕获一年或几年的周期性运动?)和数据量(更多变量意味着更多参数,所以这增加了过拟合的风险。)

如果您认为 X 对 y 随时间变化的影响,回归将不起作用(好吧,OLS 不会)。自相关是时间序列数据中固有的另一个问题,尽管已经开发了特殊的 SE 来解决这个问题。如果 Y 随着时间的推移影响自身,那么我相信线性回归(非时间序列)也不会正常工作。