基于深度学习的时间序列预测

机器算法验证 时间序列 神经网络 预测
2022-04-01 19:04:45

根据论文“统计和机器学习预测方法:关注点和前进方向”,看起来最近基于 DNN 的方法在外推(即时间序列预测)方面的预测能力比 VAR 或 ARIMA 等统计算法弱。

基准测试结果与当前的 Deep-Learning-beats-it-all 趋势相反。这个结果背后的原因是因为 DNN 算法需要大量数据吗?

4个回答

你不能有意义地谈论 DNN 或 ARIMA “在时间序列预测方面做得更好”。这在很大程度上取决于您正在查看哪种系列:短系列与长系列,多系列与少数系列或只有一个相关系列,因果驱动因素与否等。

任何在这里发表全面声明的人都像一个推销员,他确切知道你需要什么样的汽车——不用费心去弄清楚你是否需要越野驾驶、通勤两英里去上班、需要调动一支小联盟棒球队,还是想去运输牛。

作为一个非常粗略的经验法则,如果你的短系列很少,经典方法的表现会很有竞争力。如果您有许多相关系列,DNN 可能会更好地工作。(这在很大程度上取决于设置它们的人是否知道她或他在做什么。)

您可能还会考虑您提到的“深度学习击败所有”趋势背后的驱动因素。围绕这些技术的大量炒作来自于这些方法在图像识别和自然语言问题上的优越性。这些域由异常大的数据集定义(例如 ImageNet > 1400 万张图像,可以找到非常大的文本语料库)。因此,仅通过首先了解为什么这些方法很受欢迎,就可以或多或少地回答为什么它们较少用于时间序列(因为时间序列数据集要小得多)。

作为一个重要的时间序列数据集有多短的例子,考虑一下如果你想对美国 GDP 建模,美联储的季度数据可以追溯到 1929 年,只有大约 360 个数据点!

应用于时间序列预测的统计工具是非​​常成熟且面向方法的方法。您会发现许多技术 arima sarima sarimax var varimax vecm.... 每种方法都是针对特定情况和数据类型和系列开发的。

另一方面,RNN、LSTM 等 DNN 是具有挑战性的模型,在该领域还没有被广泛使用,因此没有经历过很多情况,因此可以大规模评估和更新它们。

我有机会为 medels 系统工作,结合在一起,为一个预测生态、演示、社会......指标的时间序列的平台工作,而且有时 LSTM 会得到更好的结果。

我可以声称的是,当涉及到随机趋势巧克力时,DNN 并不好。

这个结果背后的原因是因为 DNN 算法需要大量数据吗?

时间序列和表格数据有相似之处。最近的一项工作表格数据:深度学习不是您需要的全部,显示了 DNN 在表格数据上执行常规模型的类似趋势。然而,当有非常大的数据集时,DNN 的学习能力是有优势的。对深度学习更公正的说法是,这是一个开放的研究领域,DNN 比传统的时间序列模型具有巨大的潜力。

PS:提供论文统计和机器学习预测方法的链接:塞浦路斯研究人员的关注和前进方向