使用机器学习计算未来 GDP %

数据挖掘 机器学习 随机森林 决策树 机器学习模型
2022-02-13 03:06:25

我需要根据历史数据估计一个国家三年后的 GDP 百分比。

我有 30 多年的以下月度数据,其中包括通货膨胀和失业率等特征:

Year  Month  Inflation  Unemployment %  Other Features  GDP %
1990    1       1.1           6.2           ....         2.3 
1990    2       1.3           6.1           ....         2.4

...
...
...

2019    6       0.8           4.8           ....         3.1
2019    7       0.9           4.9           ....         3.3

使用 Random Forests(Python 的 scikit learn 库),我可以使用数据计算下个月 2019/8 的 GDP:

计算后(假设 GDP % = 3.2)我使用这个值并重新运行整个随机森林过程,包括在历史数据中我获得的 2019/8 年的值。

我继续迭代直到计算 2022/8,这就是我的结果。

我有两个问题:

  1. 在每次迭代中重新计算所有内容是一个繁琐的过程,如果历史数据很大,那么这将花费太长时间。
  2. 2022/8 结果仅通过一条路径获得,我需要重新运行整个过程 N 次并取平均值以获得更精确的数字。

我需要这个与机器学习(不一定是随机森林)一起工作,有什么想法可以改进/改变这个过程吗?

2个回答

我认为您应该考虑时间序列建模而不是基于观察的分类模型。在这封信中,您在每个预测年份传播错误。

我会使用 ARIMA、LSTM,也许还有半监督模型和主题发现技术。

我最终使用了循环神经网络,它非常适合时间序列。