我正在使用 1983-2008 年的数据来检验中国和美国的基尼系数和国民储蓄总额是否会影响美国的经常账户余额。数据似乎是非平稳的,但我是初学者,只知道基本的多元回归模型和自回归分布滞后模型,我还能用它们来测试这些模型的效果吗?我知道模型会有偏差且不准确,但它们是否提供了任何有用的信息?我选择的控制变量是实际 GDP、利率、美元指数,也许还有其他一些国民收入成分。
在 OLS 回归中使用非平稳时间序列数据
你可以做任何你想做的事,特别是如果它是学期论文或类似的东西。
要获得有用的结果,您不能将非平稳数据与 OLS 和时间序列一起使用。还有其他更高级的方法,非平稳性不是问题。使用 OLS,您必须区分实际 GDP 和指数,并且在许多情况下还要应用对数变换。
更新:在 OLS 中使用非平稳变量时,您会遇到虚假回归的潜在致命问题,有大量关于此主题的文献。基本上,在大多数情况下,您的回归结果会变成垃圾。您可能会看到非常显着的系数,但显着性是人为的,并且在您运行适当的回归时会消失。
还有一个更微妙的现象叫做“协整”,但既然你是在写本科论文,我就不用担心了。事实上,如果你的专业不是统计学或计量经济学,我想你的导师不会因为不当使用回归而惩罚你。
澄清:如果系列是协整的,您可以将非平稳数据与 OLS 一起使用。但是,这样做时,您最好表明该系列确实是协整的,然后如果您需要推理,则相应地调整参数协方差矩阵。参数本身就可以了。正如我在原始答案中提到的,这是通常在本科课程之外的高级概念。
我拥有计量经济学研究生学位,专门研究时间序列和生存分析。我会尽量给你简短的本科建议而不是证明。
您永远不应该将 OLS 用于时间序列数据(唯一的例外是有时将这种技术用于面板数据是合适的)。OLS 结果将是垃圾 - 它会导致虚假回归,其中结果看起来不错,但没有计量经济学解释。应改为使用 MLE。为什么的简短答案是,因变量和误差项之间的协方差永远不会为零,这是 OLS 的基本假设之一。我们必须对数据拟合一个过程,而不是拟合一条线性线 (AR(p), MA(q), ARMA(p,q), ARIMA(p,d,q), ARIMAX(p,q,x )、VAR(p) 等)
区分您的数据以使其静止将不允许您使用 OLS。固定数据仍然遵循一个过程,您的模型规范应该允许这一点。如果两个时间序列的误差项是平稳的,则使用协整技术是合适的,但这不是您应该尝试自己做的事情。
如果您有权访问统计数据包,请研究如何执行 Dickey-Fuller 平稳性检验以确定您的数据是否平稳。如果不是,则对数据进行差分,并且(假设在第一次或第二次差分后具有平稳性),使用 MLE 将适当的过程拟合到您的系列中。
警告:根据您提供的数据描述,听起来最好使用带有传递函数 (VARMAX(p,q,x)) 的向量自回归进行建模。这也称为递归 VAR。如果您试图确定(假设是静止的)多个时间序列是否正在预测另一个时间序列,则这是合适的。这些在正确建模时非常准确,但它们并不简约(您需要大量的自由度,并且您已经在使用仅渐近无偏的估计过程,因此希望您有大量的观察结果),而且它不是我建议本科生尝试做的事情。
希望有帮助,
基冈