我查看了您发布的数据。我很感激你的问题,因为它让我有机会使用 Autobox 软件来运行它。
当您说 2004 年存在结构性中断时,您说得很对,但您是否考虑过参数中断可能有多个候选者?有关这些候选人的列表,请参见下表。
诊断检查 #4: CHOW 参数一致性测试 用于此测试的临界值:0.05 最小组或间隔大小为:51
F TEST TO VERIFY CONSTANCY OF PARAMETERS
CANDIDATE BREAKPOINT F VALUE P VALUE
52 2004/ 1 3.69947 .0267988938
57 2004/ 6 3.71222 .0264738875
62 2004/ 11 3.21210 .0427876196
67 2005/ 4 3.58410 .0299305651
72 2005/ 9 3.32751 .0382910942
77 2006/ 2 2.25996 .1075565489
82 2006/ 7 1.67456 .1905412741
87 2006/ 12 2.15920 .1186484852
92 2007/ 5 3.08986 .0481356253
97 2007/ 10 5.95847 .0031691039
102 2008/ 3 .291259 .7477028638
107 2008/ 8 1.21682 .2987975860
上表很有启发性,并提供了一个有用的说明,说明为什么迭代选择过程有时可以比人眼做得更好。这并不是你的错——你面前有一个困难的数据集。
[I] 是否要为其创建一个虚拟变量,在 2004-2009 和 0 之间取值为 1,否则会是正确的吗?
您不仅对上述陈述而且对以下陈述都非常正确。这是时间序列中的问题。鸡还是鸡蛋。所以你下一个最好的选择是分步进行——尝试你的 AR(1)[12] 与编码的电平转换,然后反过来做这个过程。最终,两者都应该集中在一个答案上;但前提是你的季节性倾向是正确的。如果您查看您提出的系列的偏自相关函数或自相关函数,它们都没有表明需要季节性差分。
Autobox 在使用 Chow 测试后,确定以上都没有必要。发现候选期 97(2007 年 8 月)是统计上最显着的断点。删除前 96 个值后,情况看起来与以前大不相同。
Y(T) =1649.3
+[X1(T)][(+ 2040.7 )] :PULSE 2008/ 9 108
+[X2(T)][(+ 1888.7 )] :PULSE 2009/ 6 117
+[X3(T)][(- 1144.0 )] :PULSE 2008/ 1 100
+[X4(T)][(+ 1797.5 )] :PULSE 2009/ 4 115
+[X5(T)][(+ 1543.3 )] :PULSE 2009/ 5 116
+ [(1- .594B** 1)]**-1 [A(T)]
似乎数据已被带有一些可识别异常值的 AR(1) 充分解释。