面板数据的预测模型

机器算法验证 预测模型 面板数据
2022-03-23 14:08:54

我在类似形式的数据中遇到了一些实际问题:item*features*time.

传统上,教科书中预测模型的数据只有item*features,我们使用特征来进行预测。项目通常是 iid。

起初我对这种()数据感到困惑,item*features*time直到有人告诉我这被称为面板数据。这提醒我,我在一些计量经济学书籍中看到了这个概念。然而,大多数计量经济学都是线性模型。

鉴于我们今天有大量的预测模型(如 LASSO、RT、GBM、SVM,甚至深度学习),我的问题是有没有办法为面板数据构建预测模型?有没有好的参考资料?

数据的一些实际事实:

  • 它不是独立同分布的,所以更接近时间的观察可能有一些相关性,或者一些关系,我们可以在预测模型中使用它们。此外,有时,项目是相关的,项目之间的关系可能也需要考虑。

  • 我可以强制将这个 3-D 数据变成 2-D,通过融化item*features为一个长观察,使数据变成observation*features传统教科书形状的数据吗?请问这个结果对于这个好还是有意义?

3个回答

查看此出版物:

Pargent, F. 和 Albert-von der Gönna, J. (2018)。使用心理面板数据进行预测建模。Zeitschrift Für Psychologie,226(4),246–258。https://doi.org/10.1027/2151-2604/a000343

当您拥有面板数据时,您可以尝试解决不同的任务。对于每项任务,都有许多解决方法。计量经济学家通常对面板预测感兴趣。其他常见任务是时间序列分类或回归。

当您想使用机器学习方法来解决面板预测时,有多种方法:

关于您的输入数据(X),将单位(您所说items的)视为 iid 样本,您可以

  • 将时间序列装箱并将每个箱视为单独的列,忽略任何时间顺序,所有单位的箱都相同,箱大小当然可以只是观察到的时间序列测量值,或者您可以上采样并聚合到更大的箱中,然后对表格数据使用标准机器学习算法,
  • 或从每个单元的时间序列中提取特征,并将每个提取的特征用作单独的列,再次与标准表格算法相结合,
  • 或使用专门的时间序列回归/分类算法,具体取决于您观察的是连续时间序列数据还是分类时间序列数据。

关于你的输出数据(y),如果你想预测未来的多个时间点,你可以

  • 为您想要预测的每一步拟合一个估计器,始终使用相同的输入数据,
  • 或者在预测中为第一步拟合单个估计器,及时滚动输入数据,使用第一步预测附加到观察到的输入数据以进行第二步预测,依此类推。

上述所有方法基本上都将面板预测问题简化为时间序列回归或表格回归问题。一旦您的数据采用时间序列或表格回归格式,您还可以为用户附加任何时间不变的特征。

当然,还有其他选项可以解决面板预测问题,例如使用适用于面板数据的 ARIMA 等经典预测方法或允许您直接进行序列到序列预测的深度学习方法。

很多不错的参考资料:

Gelman 和 Hill,使用回归和多级/分层模型进行数据分析

Pesaran,HM,时间序列和面板数据计量经济学

Gelman 和 Hill 的书得到了更多的应用,而 Pesaran 通过开发和扩展针对平稳性、自回归、单位根、横截面之间的弱相关性等的经典单变量时间序列检验对面板数据模型做出了原创性贡献。