面板数据的机器学习算法

机器算法验证 r 机器学习 支持向量机 面板数据 大车
2022-02-11 05:55:54

在这个问题中 - 是否有一种方法可以构建考虑结构化/分层/多级预测变量的决策树?- 他们提到了树木的面板数据方法。

支持向量机和神经网络是否有特定的面板数据方法?如果是这样,您能否引用一些有关算法的论文和(如果有)实现它的 R 包?

2个回答

当您拥有面板数据时,您可以尝试解决不同的任务,例如时间序列分类/回归或面板预测。对于每项任务,都有许多解决方法。

当您想使用机器学习方法来解决面板预测时,有多种方法:

关于您的输入数据 (X),将单位(例如国家、个人等)视为 iid 样本,您可以

  • 将时间序列装箱并将每个箱视为单独的列,忽略任何时间顺序,所有单位的箱都相同,箱大小当然可以只是观察到的时间序列测量值,或者您可以上采样并聚合到更大的箱中,然后对表格数据使用标准机器学习算法,
  • 或从每个单元的时间序列中提取特征,并将每个提取的特征用作单独的列,再次与标准表格算法相结合,
  • 或使用专门的时间序列回归/分类算法,具体取决于您观察的是连续时间序列数据还是分类时间序列数据,这包括具有将时间序列与时间序列进行比较的特殊内核的支持向量机。

关于你的输出数据(y),如果你想预测未来的多个时间点,你可以

  • 为您想要预测的每一步拟合一个估计器,始终使用相同的输入数据,
  • 或者在预测中为第一步拟合单个估计器,及时滚动输入数据,使用第一步预测附加到观察到的输入数据以进行第二步预测,依此类推。

上述所有方法基本上将面板预测问题简化为时间序列回归或表格回归问题。一旦您的数据采用时间序列或表格回归格式,您还可以为用户附加任何时间不变的特征。

当然,还有其他选项可以解决面板预测问题,例如使用适用于面板数据的 ARIMA 等经典预测方法或允许您直接进行序列到序列预测的深度学习方法。

LSTM(长期短期记忆)可能与您相关。这种类型的模型可以在多个时间点处理多个特征,这应该适合面板数据。是一个关于 LSTM 概念的非常好的解释,这里是一个实现 R 版本的 LSTM 的包。