机器算法验证 - 对于时间序列问题，为什么使用时间序列模型优于没有显式时间组件的模型？ - 吾爱随笔录

对于时间序列问题，为什么使用时间序列模型优于没有显式时间组件的模型？

机器算法验证机器学习时间序列预测

2022-04-02 03:34:48

高级问题：

将数据建模为时间序列有什么优势？

对于涉及（多变量）时间序列数据的问题，为什么将问题建模为时间序列问题是有用的，

time       | value1 | value2
-----------|--------------
2020-01-01 | 1      | 3
2020-01-02 | 2      | 3
2020-01-03 | 3      | 1
...        | ...    | ...

而不是经典的表格格式？

day of the month | month | year | value1 | value2
01               | 01    | 2020 | 1      | 3     
02               | 01    | 2020 | 2      | 3
03               | 01    | 2020 | 3      | 1

因此，当我想预测我的时间序列时，对于时间序列方法，我会使用模型作为 ARIMA 或 RNN。对于“经典”格式，我会使用线性回归或决策树之类的东西。

为什么更喜欢时间序列模型？

我的假设：您考虑到自相关，并给予“最近”观察更多的权重。它还考虑了排序。

但是“经典”模型是否也能捕捉到这些关系？但是结合了三个变量？

使用时间序列模型的主要原因是什么？直觉上，这对我来说很清楚。但我无法真正解释它。谁能帮我澄清一下

3个回答

是的，原则上你的“经典”方法也会捕捉到周期性和自相关。毕竟，拟合 AR 时间序列模型与 OLS 根据实际值的滞后值回归实际值并没有太大区别。然而：

假设您以日、月和年作为预测变量运行标准线性回归。您的回归将无法理解预测变量设置 (1, 3, 2020) 与 (29, 2, 2020) 非常相似。是的，第三个预测变量是相同的，但其他两个不是，拟合的差异将是。将此与 (28, 2, 2020) 与 (29, 2, 2020) 的预测变量设置的拟合差异进行比较，这只是，尽管两者一对预测器设置都相隔一天。 $28\hat{\beta}_{\text{Day}}+\hat{\beta}_{\text{Month}}$ $\hat{\beta}_{\text{Day}}$

此外，回归没有自回归的概念。

当然，您可以手工制作回归，方法是包含一个日计数器来解释上述第一个事实，并包含结果的滞后值来解释自回归。但这将是很多工作，而且实际上在数学上并不是最优的。
现在假设您查看决策树，或者可能是随机森林。是的，这应该能够学习预测变量之间的相互作用，例如上面的 (1, 3, 2020) 和 (29, 2, 2020) 之间的差异。但是，这样做需要大量数据。比您仅使用时间序列方法要多得多。

底线：您可以为工作使用特定工具（时间序列分析），或调整其他工具（具有大量预测变量调整的回归），或者使用非常通用的工具，然后需要大量数据（CARTs 和 Random森林）。

从表面上看，时间序列方法在数学上更方便，而人类日期更方便呈现数据/结果。

正如您正确指出的那样，在更深层次上，可以使用日、月和年作为三个独立变量，特别是如果有理由认为存在周期性变化（例如，季节性变化或与太阳活动周期相关））。它是改善还是恶化取决于a）用于分析时间序列的方法（它是否能够捕获一年或几年的周期性运动？）和数据量（更多变量意味着更多参数，所以这增加了过拟合的风险。）

如果您认为 X 对 y 随时间变化的影响，回归将不起作用（好吧，OLS 不会）。自相关是时间序列数据中固有的另一个问题，尽管已经开发了特殊的 SE 来解决这个问题。如果 Y 随着时间的推移影响自身，那么我相信线性回归（非时间序列）也不会正常工作。

其它你可能感兴趣的问题

上一篇是否存在类似于二项分布但具有连续而非二元试验输出的概率分布？下一篇用于推断比例的基础统计模型来自哪里？