时间序列回归器选择

机器算法验证 机器学习 时间序列 多元分析 特征选择
2022-04-01 15:19:19

我对一种(多变量)算法感兴趣,它可以识别相关的回归量(它们本身就是时间序列)来预测感兴趣的时间序列。这个问题的措辞是笼统的,因为这个算法应该应用于不同类型的时间序列。

对于经典数据,我会使用例如 LASSO 并使用那些非零系数的变量,但我不确定如何在(通用)时间序列上下文中做到这一点。原因是这里的每个指标可能与不同的滞后相关。此外,考虑先验未知的季节性模式可能很重要(该方法最好适用于每小时和每月的时间序列)。

CrossValidated 已经提出了类似的问题,例如,

这里这里这里这里

但我没有找到满意的答案。我希望因此可以再次发布类似的问题。

随机森林已在此答案中提出。与 LASSO 一样,我不清楚如何在具有任意季节性模式的时间序列上下文中最佳地应用这些方法。

我不想使用互相关(如本答案中所建议的那样),因为我想考虑回归变量之间的协方差。

tsfresh 已在此答案中提出,但我看不出如何从该包中获得最相关的功能(即变量/回归加上滞后)。

欢迎任何有关 Python 或 R 库的提示。

2个回答

“我不想使用互相关(如本答案中所建议的那样),因为我想考虑回归变量之间的协方差。”

预白化的作用是初步识别输入序列传递函数结构/滞后的性质。这很容易通过必要性测试和通过当前模型残差和预白化 X 的互相关测试的充分性测试来重新定义。

作为一个总体评论,您完全忽略了潜在确定性结构的影响,例如电平转换、季节性脉冲、脉冲和时间趋势。

您的目标应该是https://autobox.com/pdfs/SARMAX.pdf

由Stock 和 Watson (2002)引入的动态因子模型似乎是我正在寻找的

本文研究使用大量预测变量预测宏观经济时间序列变量。使用通过主成分分析构建的少量指标对预测变量进行汇总。近似动态因子模型作为指标估计和预测构建的统计框架。该方法用于构建从 1970 年到 1998 年的 8 个月度美国宏观经济时间序列的 6 个月、12 个月和 24 个月的提前预测,使用 215 个预测变量实时模拟。在这个样本期间,这些新预测优于单变量自回归、小向量自回归, 和领先指标模型。

例如,在PythonRStata中有实现