预测失业率

机器算法验证 时间序列 马尔可夫链蒙特卡罗 混合模式 预测
2022-03-20 15:14:58

我有一个包含 100 个地理区域的数据集,在过去 9 年中观察到了这些区域的失业率。现在,我想根据这些数据模拟/预测所有 100 个地区明年的失业率。什么是合适的方法?我正在考虑使用自回归混合效应模型,但我担心我没有足够的数据......

问候

2个回答

Arellano-Bond 估计器正是为此类问题而设计的。您将在此处找到包含示例的简短非技术论文简而言之,它结合了大量横截面中嵌入的信息,以弥补每个系列中的少量点。这个估计器被广泛使用和实现:它可以在默认的 gretl中使用,也可以通过XTABOND2包在 stata 中使用,也可以通过 plm在 R 中使用(您应该很容易找到大量使用它的论文)。

编辑:

鉴于空间相关性确实可能提供信息(参见安迪的帖子),我建议添加一个变量:

sit=uitu¯it

其中是(最终是在时间的失业率(不包括地区个地理邻居中的平均值. 我建议尝试不同的值,直到 k 的微小变化影响估计的最终结果/结论。然后,为了有效和一致地估计(与变量uitlog()itu¯itkiikkβss) 我将使用 OLS 作为主效应,并允许误差项的随机分量来解释中的区域间异质性;从而利用 R 包 plm 允许结合 gmm(即 Arellano-Bond)和随机效应系数的事实。βs

关于 Andy W 的评论:您可以阅读 两个文件以获得非技术摘要。完整的纸质版本在这里注意对大量横截面和时间维度的依赖。

PS:谢谢@Srikant。我想我现在明白了:)

鉴于您的数据的性质,我建议您研究指数平滑以及拟合 ARIMA 类型模型的使用,尤其是由于数据中的时间限制。虽然我不怀疑空间依赖的存在,但我会怀疑它们在预测中的有用性(在我想象的相当大的区域中),特别是因为任何空间依赖都可能已经被捕获(至少在一定程度上)在该系列之前的观察中。

如果您有小面积估计问题,空间相关性可能会有所帮助,并且您可以使用数据中的空间相关性来帮助平滑您在那些嘈杂的地理区域中的估计。不过,这可能不是问题,因为您已经汇总了一整年的数据。

不过,您不应该相信我的话,应该调查有关该主题的经济学文献并自己评估各种预测方法。在类似的面板设置中,它很可能的其他变量是未来失业的有用预测指标。

编辑:

首先,我想澄清一下,我并不是说 OP 应该简单地喜欢某种类型的指数平滑而不是其他技术。我认为 OP 应该使用 1 或 2 个时间段的保留样本来评估各种预测方法的性能。我不知道预测失业的文献,但我还没有看到任何明显优于其他方法的方法在任何情况下都应该被彻底解雇。

Kwak 提到了我最初没有考虑的一个关键点(斯蒂芬的评论也非常简洁地提出了同样的观点)。数据的面板性质允许人们比单个时间序列更容易估计模型中的自回归分量。所以我会听从他的建议,并认为 A/B 估计器是提供最佳预测准确性的好选择。

尽管我对空间依赖性的有用性持怀疑态度,但我仍然坚持我最初的建议,并且应该评估模型在有和没有空间分量的情况下的预测准确性。就预测而言,不仅仅是某种空间自相关是否存在,而是这种空间自相关是否可用于预测独立于序列中过去观察的未来值。

为了简化我的推理,让我们表示

Rt对应于时间Rt

Rt1对应上一个时间段R

Wt1对应于但是想要定义的邻居在前一个时间段的空间关系Rt

在这种情况下是某个属性,的邻居中的相同属性(即内生空间滞后。)RWR

在几乎所有晶格面积数据的情况下,我们在之间都有关系。这种关系的两个一般解释是RW

1) 一般社会过程理论

这是当存在同时影响的过程时,会产生具有某种空间组织的相似值。数据的支持并没有区分在比面积单位所包含的更广泛范围内塑造属性的力量。(我想有一个更好的名字,所以如果有人可以帮助我。)RW

2)空间外部性理论

这是当的某些属性直接影响的属性时。Srikant 的工作分散例子就是一个例子。WR

在预测的背景下,一般的社会过程模型可能对预测没有那么大的帮助。在这种情况下,反映了相同的外部冲击,因此不太可能具有独立于Rt1Wt1Wt1RtRt1

IMO 空间外部性案例我预计 1}在短期内独立于的潜力更大,Wt1RtRt1Rt1Wt1可以反映对系统的不同外部冲击。这是我的观点,您通常无法通过横截面设计中的经验手段区分一般社会过程模型和空间外部性模型(它们可能在许多情况下都在一定程度上发生)。因此,在简单地将其纳入预测之前,我会尝试验证其有用性。更好地了解文献和社会过程肯定会有助于指导您的模型构建。在犯罪学中,只有在非常有限的情况下,外部性模型才有意义(但我想在经济学数据中更有可能)。空间特征房价模型往往表现出很强的空间效应,在这种情况下,我希望空间组件具有很强的预测房价的能力。(我比我更喜欢 Luc Anselin 对这两个不同过程的解释这篇论文,PDF在这里

通常我们如何定义W是此设置中的另一个问题。大多数观念W非常简单,可能并不完全反映真实的地理过程。这里 kwaks 建议向W每个效果R很有意义。一个例子是我们希望纽约市影响其邻居,但我们不希望纽约市的邻居对纽约市产生如此大的影响。这仍然没有解决如何决定什么是邻居或如何最好地表示邻居的影响。kwak 的建议是 Geary's C(空间差异)的本地版本,本地 Moran's I(空间平均值)也是一种常见的方法。

对于我使用更简单的平滑方法(即使它们适用于单变量时间序列)的建议的负面反应,我仍然有点惊讶。我是否天真地认为指数平滑或其他类型的移动窗口技术至少不能与更复杂的程序相比表现得足够好来评估它?如果系列是这样的,我们会期待季节性成分,我会更担心,但这里不是这种情况。