数据:多元时间序列,序列
- 产品需求
- 2010-2013 年的月度降雨数据均可用。
方法:我正在尝试使用 VAR(矢量自回归)模型估计降雨对产品需求的影响。需求数据有一些异常值,例如一个月的突然高需求,然后是零值。
问题:如何处理这些异常值(我在 R 中工作),因为我的数据已经很少,删除它们不是我的选择。
数据:多元时间序列,序列
方法:我正在尝试使用 VAR(矢量自回归)模型估计降雨对产品需求的影响。需求数据有一些异常值,例如一个月的突然高需求,然后是零值。
问题:如何处理这些异常值(我在 R 中工作),因为我的数据已经很少,删除它们不是我的选择。
为什么要对产品需求和降雨量进行 VAR?VAR 假设影响是双向的,我发现假设对产品的需求导致降雨是不寻常的。当然,这并非完全不可能。毕竟,根据全球变暖危言耸听者的说法,我们的农业会影响天气。但是,我认为在您的情况下,这不是您要说的。
这就是我从 ARIMAX 模型开始的原因,这里是 MATLAB 示例。在 R 中有类似功能的astsa包。在 ARIMAX X 中代表外生时间序列,在您的示例中它会降雨。您的因变量将是需求。在我看来,这是一个单变量设置,更简单,更有意义。
您必须注意的是因果关系问题。建立因果关系通常非常困难。如果您的产品需求不是由降雨驱动,而是由与年度周期性相关的其他因素驱动,而后者又与降雨相关?因此,beta 显着这一事实并不自动意味着降雨会导致或影响需求。
例如,有一些统计方法可以在Granger的意义上测试因果关系。
但是,我会较少依赖统计数据,而更多地依赖您的基础理论或领域知识。假设我们在谈论雨伞。显然,人们预计需求将取决于降雨量。
您总是可以尝试一个对异常值具有鲁棒性的估计器,例如这个:
Muler & Yohai (2013):向量自回归模型的稳健估计
从粗略的谷歌搜索来看,您似乎必须自己编写代码。无论如何,前两节中的文献讨论可能会帮助您理解所涉及的问题。
如果异常值是由产品需求中的特殊事件引起的,您可以包含虚拟变量。dummy 在异常值上取值为 1,否则为零。