在一年的时间里,我有几个两个变量的时间序列(大约 2.5k 次观察)。我假设一个变量 ( x ) 作为另一个变量 ( y ) 的潜在预测因子。我寻找了y最好由x描述的时期(“最好”,如最强的 Pearson ),从那个最佳时期进行观察,计算简单的线性回归模型及其参数,并在所有x上预测y。因此,我在一年的同一时间序列中有两个y - 观察和预测,后者是从最佳时期计算的回归模型的结果。
现在,我在最佳时期的数据中检测到自相关和异方差。对于一个示例时间序列,请参见下面的回归诊断图和其中的统计测试结果。
左上图:散点图中的原始数据;右上图:残差与独立变量(DW = Durbin Watson 检验和 BG = Breusch-Godfrey 自相关检验);左中:残差与拟合图(BP = Breusch-Pagan 异方差检验);右中:正态 QQ 图(W = Shapiro-Wilk 检验,A = Anderson-Darling 残差正态性检验);左下:比例位置图,右下:残差与杠杆图检测异常值。
从测试和目视检查中,我可以推断出我的数据中存在自相关和异方差。我有点坚持如何从这里开始。特别是,我会很高兴在以下方面提供帮助:
- 自相关在时间序列数据中很常见,这并不意味着我不必对其进行校正,我猜?
- 残差的正态性并不重要,尤其是对于较大的样本量。我的最佳时期的样本量至少有 240 个观察值。足以解决这个问题?
- 对于纯粹的预测目的,这是我主要感兴趣的,我听说回归诊断及其处理对预测值没有太大的改进,但对t - 和F - 统计量很重要。如果它是我所追求的预测,我是否应该担心纠正诊断所揭示的任何问题?
- Box-Cox 变换可以帮助纠正异方差,而 Cochrane-Orcutt、Hildreth-Lu 或 First Differences Procedures 可以解决自相关问题,至少在理论上是这样。我怎么知道首先要解决哪个问题?纠正异方差是改善还是恶化自相关情况,反之亦然?是否有一种程序可以一次性缓解这两个问题(即 Newey-West 估计器)?
散点图表明线性回归模型不能很好地描述这种关系,并且可能首先更适合 gls 模型。但是,我想始终将线性模型应用于我的所有时间序列,即使它们可能不能很好地解释数据的分布。这本身就是一个有趣的结果。
我正在使用 R 环境进行分析。
