我正在寻找一些关于为面板数据选择合适的预测模型的建议。我刚刚开始在该领域,并希望任何提示或经验法则来帮助做出这样的决定。这是我的特殊情况:
我有 12 家竞争公司的收入季度数据。每家公司都有三个主要收入来源:A、B、C(对所有公司都一样)。对于每个来源和公司,我都有大约从 2010 年开始的数据,所以大约是 30 个时间点。数据是非平稳的。我认为这种结构称为“面板数据”。我想对每家公司进行预测,并提前一个时间段进行采购。
此外,预计收入取决于一组市场参数。提出了一组 50 个时间序列(“驱动因素”,主要是各种证券交易所指数等),这些数据是免费提供的。这 50 个系列中的每一个都属于 10 个类别之一
我的问题如下:
提议的潜在驱动因素集太大。在对收入进行任何回归之前,我想将其减少到更易于管理的数量。这合理吗?如果是,我应该选择哪种方法?我阅读了各种降维程序,但我真的没有任何经验可以让我做出决定。理想情况下,我想要一个带有现成 R 库的东西,例如DFA - 这在这种情况下是否有意义(非平稳性,潜在的其他不规则性)。
假设我设法使用某种降维技术分离出几个驱动程序。我现在将如何构建我的模型?我应该为 A、B、C 考虑三个不同的模型吗?看起来我这样做会失去一些东西,因为收入来源可能是相关的。我考虑过使用动态面板模型(plm支持这一点)。但是数据不是固定的,也许有些模型不需要这个?另一件事是季节性,因为数据是季度的,以某种方式解释这一点是有意义的——临近预报?)。我对(动态)面板数据模型的了解为零,因此我将不胜感激任何指针。
将过程分为两个步骤(降维和拟合面板模型)是否有意义?它是否可能引入许多错误?可以而且应该以某种方式将这两个步骤结合起来吗?是否有更自然的方法来对此类财务面板数据进行建模?由于数据点如此之少,我认为单独对每个公司/来源进行建模是不明智的,我读到面板分析的优点是不需要很多时间点。
编辑:为了清楚起见,这是数据的结构(不是真实数据,只是在 Excel 中生成的随机数)。最重要的是,我可以访问约 50 个时间序列的外部集合,这些时间序列将作为潜在的预测因子,可分为约 10 个类别。
编辑 2:针对 DJohnson 的精彩回答,我还有几个问题:
一旦发现相关预测因子,建议使用 MANOVA 和 CCA 方法。我很好奇如何修改这些程序以适应时间序列数据。换句话说,从“普通”模型到时间敏感模型的过程是什么?两个提议模型的方程将如何变化?此外,我不太明白为什么名义上订购的时间是合适的。
回到降维和预测变量选择:我忘了在我原来的问题中提到一些相关的东西,我现在编辑了它,即潜在的 50 个预测变量中的每一个都属于 10 个类别之一(一个类别是例如交易量各种产品)。来自不同类别的系列仍然高度相关,但也许有一种特定的方法最适合处理以此类知识为特征的数据?该演示文稿提到了一种称为“约束因子模型”的东西,它可能比 PCA Lasso 或 Relaimpo 更合适?我应该提一下,我也对模型通常可以很好地解释感兴趣。