如何指定电平转换的开始和结束时间,或者在具有多个电平转换的数据系列的情况下,如何确定一个电平转换的存在/结束时间?

机器算法验证 预测 计量经济学 sas 计算统计
2022-03-31 11:58:53

我正在预测机场延误数据看起来像这样 在此处输入图像描述

看起来在 2004 年左右出现了结构性中断,出现了巨大的增长,然后在 2009 年左右出现了巨大的下降。

我不确定如何检测这些结构中断的确切点以用于 ARIMA 预测。另外,如果结构中断位于系列的中间,如果我要为其创建一个虚拟变量,它在 2004-2009 之间取值为 1 和 0,否则这是否正确?还是我先使用 ARIMA 估计模型,然后检测结构断裂。我用 (1,12) 差异和 q=(1)(12) 模型做到了这一点,它告诉我多年来包含很多结构性中断(使用 PROC ARIMA(SAS 软件)中的异常值语句)

在此处输入图像描述

这就是它在我已经包含 4 个电平移位假人之后检测到的异常值/移位。多少就足够了……它以 0.01 的 alpha 水平检测。另外我不明白我是否为每个级别转换创建一个虚拟变量,在日期之前取值为 0,之后取值为 1?我对如何处理这个问题感到非常困惑,因为我不断向模型中添加更多异常值/电平转换,并且它不断检测到要添加的更多内容,我觉得我不应该在模型中指定 10 个电平转换。

2个回答

我查看了您发布的数据。我很感激你的问题,因为它让我有机会使用 Autobox 软件来运行它。

当您说 2004 年存在结构性中断时,您说得很对,但您是否考虑过参数中断可能有多个候选者?有关这些候选人的列表,请参见下表。

诊断检查 #4: CHOW 参数一致性测试 用于此测试的临界值:0.05 最小组或间隔大小为:51

                F TEST TO VERIFY CONSTANCY OF PARAMETERS                    

       CANDIDATE BREAKPOINT       F VALUE          P VALUE                  

            52 2004/  1           3.69947          .0267988938              
            57 2004/  6           3.71222          .0264738875              
            62 2004/ 11           3.21210          .0427876196              
            67 2005/  4           3.58410          .0299305651              
            72 2005/  9           3.32751          .0382910942              
            77 2006/  2           2.25996          .1075565489              
            82 2006/  7           1.67456          .1905412741              
            87 2006/ 12           2.15920          .1186484852              
            92 2007/  5           3.08986          .0481356253              
            97 2007/ 10           5.95847          .0031691039            
           102 2008/  3           .291259          .7477028638              
           107 2008/  8           1.21682          .2987975860          

上表很有启发性,并提供了一个有用的说明,说明为什么迭代选择过程有时可以比人眼做得更好。这并不是你的错——你面前有一个困难的数据集。

[I] 是否要为其创建一个虚拟变量,在 2004-2009 和 0 之间取值为 1,否则会是正确的吗?

您不仅对上述陈述而且对以下陈述都非常正确。这是时间序列中的问题鸡还是鸡蛋。所以你下一个最好的选择是分步进行——尝试你的 AR(1)[12] 与编码的电平转换,然后反过来做这个过程。最终,两者都应该集中在一个答案上;但前提是你的季节性倾向是正确的。如果您查看您提出的系列的偏自相关函数或自相关函数,它们都没有表明需要季节性差分。

Autobox 在使用 Chow 测试后,确定以上都没有必要。发现候选期 97(2007 年 8 月)是统计上最显着的断点。删除前 96 个值后,情况看起来与以前大不相同。

Y(T) =1649.3

  +[X1(T)][(+  2040.7    )]            :PULSE          2008/  9   108
  +[X2(T)][(+  1888.7    )]            :PULSE          2009/  6   117
  +[X3(T)][(-  1144.0    )]            :PULSE          2008/  1   100
  +[X4(T)][(+  1797.5    )]            :PULSE          2009/  4   115
  +[X5(T)][(+  1543.3    )]            :PULSE          2009/  5   116
 +     [(1-  .594B** 1)]**-1  [A(T)]

似乎数据已被带有一些可识别异常值的 AR(1) 充分解释。

@whuber,已经 5 年了,我们的最新版本确实在 2009 年检测到 obs 122 的中断。

           F TEST TO VERIFY CONSTANCY OF PARAMETERS                    

       CANDIDATE BREAKPOINT       F VALUE          P VALUE                  

            52 2003/  4           3.53               .031490                
            66 2004/  6           2.85               .060928                
            80 2005/  8           1.84               .162610                
            94 2006/ 10           1.26               .285174                
           108 2007/ 12           1.03               .358053                
           122 2009/  2           4.56               .011817     *    

使用剩余数据建议改变方差。

***** TSAY 测试的迭代结果 *****

区域 1 VAR 区域 2 VAR F VAL 概率

11 .21717E+06 40 .21545E+06 .9920685 .4536341
21 .21130E+06 30 .21879E+06 1.0354240 .4773001
31 .20461E+06 20 .23257E+06 1.1366749 .3672223
* 41 .20962E+06 10 .24051E+ 06 1.1473593 .3534678

识别出具有异常值和截距的 AR1

Y(T) = 1398.09 延迟
[X1(T)][(+ 978.07 )] :PULSE 2010/ 12 144
+ [(1- .288B** 1)]**-1 [A(T)]