寻求有关预测(动态?)面板数据的模型选择的建议

机器算法验证 预测 面板数据 降维
2022-04-09 19:12:06

我正在寻找一些关于为面板数据选择合适的预测模型的建议。我刚刚开始在该领域,并希望任何提示或经验法则来帮助做出这样的决定。这是我的特殊情况:

我有 12 家竞争公司的收入季度数据。每家公司都有三个主要收入来源:A、B、C(对所有公司都一样)。对于每个来源和公司,我都有大约从 2010 年开始的数据,所以大约是 30 个时间点。数据是非平稳的。我认为这种结构称为“面板数据”。我想对每家公司进行预测,并提前一个时间段进行采购。

此外,预计收入取决于一组市场参数。提出了一组 50 个时间序列(“驱动因素”,主要是各种证券交易所指数等),这些数据是免费提供的。这 50 个系列中的每一个都属于 10 个类别之一

我的问题如下:

  1. 提议的潜在驱动因素集太大。在对收入进行任何回归之前,我想将其减少到更易于管理的数量。这合理吗?如果是,我应该选择哪种方法?我阅读了各种降维程序,但我真的没有任何经验可以让我做出决定。理想情况下,我想要一个带有现成 R 库的东西,例如DFA - 这在这种情况下是否有意义(非平稳性,潜在的其他不规则性)。

  2. 假设我设法使用某种降​​维技术分离出几个驱动程序。我现在将如何构建我的模型?我应该为 A、B、C 考虑三个不同的模型吗?看起来我这样做会失去一些东西,因为收入来源可能是相关的。我考虑过使用动态面板模型(plm支持这一点)。但是数据不是固定的,也许有些模型不需要这个?另一件事是季节性,因为数据是季度的,以某种方式解释这一点是有意义的——临近预报?)。我对(动态)面板数据模型的了解为零,因此我将不胜感激任何指针。

  3. 将过程分为两个步骤(降维和拟合面板模型)是否有意义?它是否可能引入许多错误?可以而且应该以某种方式将这两个步骤结合起来吗?是否有更自然的方法来对此类财务面板数据进行建模?由于数据点如此之少,我认为单独对每个公司/来源进行建模是不明智的,我读到面板分析的优点是不需要很多时间点。

编辑:为了清楚起见,这是数据的结构(不是真实数据,只是在 Excel 中生成的随机数)。最重要的是,我可以访问约 50 个时间序列的外部集合,这些时间序列将作为潜在的预测因子,可分为约 10 个类别。

数据

编辑 2:针对 DJohnson 的精彩回答,我还有几个问题:

  1. 一旦发现相关预测因子,建议使用 MANOVA 和 CCA 方法。我很好奇如何修改这些程序以适应时间序列数据。换句话说,从“普通”模型到时间敏感模型的过程是什么?两个提议模型的方程将如何变化?此外,我不太明白为什么名义上订购的时间是合适的。

  2. 回到降维和预测变量选择:我忘了在我原来的问题中提到一些相关的东西,我现在编辑了它,即潜在的 50 个预测变量中的每一个都属于 10 个类别之一(一个类别是例如交易量各种产品)。来自不同类别的系列仍然高度相关,但也许有一种特定的方法最适合处理以此类知识为特征的数据?该演示文稿提到了一种称为“约束因子模型”的东西,它可能比 PCA Lasso 或 Relaimpo 更合适?我应该提一下,我也对模型通常可以很好地解释感兴趣。

2个回答

优秀的问题。Benny_dref 的建议很有用。OPs 查询的第一句与“为面板数据选择适当的预测模型”有关。有了几个 DV、多个预测变量和多种可能的方法和模型来追求,一个模型选择有两个广泛的途径。第一个是理论上的——Wooldridge(参考下文)和 OPs 问题正文中的 DPM 方法的链接提供了这些方面的指导。第二种途径是经验性的,例如,哪个模型具有最大的预测能力?解释了最大的差异?最小化错误?和/或最小化 AIC/BIC 指标?换句话说,模型选择有多种可能的标准。您可以选择一个或对多个指标进行三角测量,以提取信息以做出决定。

OPs 查询正文中的(链接的)DPM 甲板在涵盖小T的理论问题方面是详尽无遗的面板数据、GMM 和工具变量(IV)。但是请注意,他们的方法是确认性的,并假定许多(如果不是全部)更适用和实际问题的 OP 已经得到解决和回答。此外,其高水平的技术严谨性可以让没有经验的建模者陷入困惑的兔子洞。我的建议是通过使用要求不高、更容易消化和探索性的方法、方法和模型来建立他们的处方,而不是立即追求他们的处方。例如,为什么不使用更简单、更易于处理、易于实现和理解的 OLS 模型来构建它们的使用,而不是 GMM?或者考虑 IVs:计量经济学家更喜欢 IV 解决内生性问题,但非计量学家质疑他们是否会产生与解决的问题一样多的问题。当然,这些问题始于简单地确定一个合适的 IV(s)。为什么不把这些理论上的、最后一步的问题放在一边,直到你对数据的行为有了更多的了解?这也增加了跳出纯粹的计量经济学框架来考虑其他学科提出的方法和模型的可能性。

正如问题 1) 中的 OP 所述,存在一些探索性问题来解决 wrt 变量选择。PCA 被广泛使用,但缺点是模糊了各个预测变量固有的特异性。为什么不使用套索进行变量选择?变量选择的另一种方法可能是相对变量重要性。Ulrike Groemping 的 RELAIMPO 就是其中之一(https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf)。RELAIMPO 是一个 R 模块,可以在 OLS 回归的框架内轻松实现,并且有助于生成关于面板数据的定性见解。此外,Groemping 详尽地回顾了多年来提出的许多变量重要性的方法。

Wrt 2),三个 (A,B,C) 相关因变量 (DVs) 可以同时使用典型相关或 MANOVA 类型方法建模。这将提供信息,因为它会告诉您预测变量的重要性如何随 DV 变化。假设 DV 是非负的,与一阶差分不同的有用归一化变换将是自然对数。自然对数有许多优点,包括结果参数表示为弹性,并且在将预测转换回其原始单位时,它们可以最大限度地减少重新转换偏差。如果 DV 包含负值 Lee Cooper 建议对数居中(市场份额分析http://www.anderson.ucla.edu/faculty/lee.cooper/MCI_Book/BOOKI2010.pdf)。Cooper 的书是探索面板数据结构的应用想法和建议的金矿(他的术语是汇集时间序列模型)。

Wrt 3),简短的回答是肯定的,一个多步骤的探索过程是有意义的,直到你知道更多......更多。

在计量经济学文献的背景下,Wooldridge 的横截面和面板数据的计量经济学分析是“首选”资源。他的书的缺点是几乎是纯理论的,几乎没有实际的应用指导。对 Wooldridge 的一个很好的补充是 Badi Baltagi 的面板数据计量经济学分析,它考虑了现实世界数据不可避免的混乱性质。

M. Hashem Pesaran 的论文涵盖了许多在计量经济学文献中没有讨论过的面板数据模型问题,例如弱横截面依赖性和非平稳性。我建议使用“filetype:pdf hashem pesaran”进行谷歌搜索,以发现他发表的论文。

线性模型并不是镇上唯一的游戏。Weiss 在他的讲稿 ( http://www.unc.edu/courses/2008fall/ecol/563/001/docs/lectures/lecture27.htm ) 中回顾了非线性混合效应模型。同样,Rob Hyndman 的“增强加性分位数回归”的建议是探索复杂的非线性面板数据结构的严格方法的另一个极好的例子 ( http://ieeexplore.ieee.org/document/7423794/ )。BAQR 的另一个优点是,它是非参数且无分布的,它比自然对数变换更有效地控制极值(也称为异常值),在存在真正极值数据的情况下,它不会捕获重尾。

计量经济学面板数据模型只是更广泛的事件数据建模类别中的一种。有大量关于增长和层次模型密切相关主题的文献,例如 Gelman 和 Hill 的Data Analysis Using Regression and Multilevel/Hierarchical Models、Singer 和 Willett 的Applied Longitudinal Data Analysis或 Raudenbush 和 Bryk 的Hierarchical Linear Models都是很好的参考资料,涵盖广泛的非计量模型和方法,包括营销科学、教育、健康、环境等。

如果没有看到数据,这很难回答,但由于数据是季度的,因此您似乎拥有具有分类维度的时间序列数据。

如果您尝试构建回归并使用输出进行预测,那么构建只有 30 个观测值的多元模型将很困难,并且您的模型拟合将反映这一点(调整后的 R2 或 F-Stat)。

如果你不得不蛮力这件事,我会尝试以下几个步骤:

  1. 将所有指标相互关联以确定多重共线性,这样您就可以看到哪些指标一起移动并可以执行一种“手动”降维形式,因为某些指标可以代表另一个指标
  2. 选择不超过三个 x 变量并为其中一家公司运行一个多元模型,

或者

  1. 汇集您的数据并运行混合模型(使用公司名称作为分类变量),这将大大增加您的观察量,从而增强模型及其预测能力

或者

  1. 对每家公司的季度数据运行 ARIMA,看看你会得到什么