机器算法验证 - 如何进行汇总横截面时间序列分析？ - 吾爱随笔录

如何进行汇总横截面时间序列分析？

机器算法验证时间序列 spss 自相关面板数据横截面

2022-03-14 22:04:36

对于 86 家公司和 103 天，我收集了 (i)hbVol每家公司的推文（变量）和 (ii) 公司维基百科页面的页面浏览量 ( wikiVol)。因变量是每家公司的股票交易量（stockVol0）。我的数据结构如下：

company  date  hbVol    wikiVol   stockVol0  comp1  comp2 ... comp89  marketRet
-------------------------------------------------------------------------------
1        1     200        150     2423325      1      0   ...   0     -2.50
1        2     194        152     2455343      1      0   ...   0     -1.45
.        .      .          .         .         .      .   ...   .
1       103    205        103     2563463      1      0   ...   0      1.90
2        1     752        932     7434124      0      1   ...   0     -2.50
2        2     932        823     7464354      0      1   ...   0     -1.45
.        .      .          .         .         .      .   ...   .
.        .      .          .         .         .      .   ...   .
86      103     3          55      32324       0      0   ...   1      1.90

据我了解，这称为汇集横截面时间序列数据。我采用了所有变量的对数值来消除公司之间的巨大差异。具有两个独立变量的回归模型stockVolo：

在此处输入图像描述

0,276 的 Durbin-Watson 表明残差具有显着的自相关性。然而，残差是钟形的，从下面的 PP 图可以看出。偏自相关函数在 1 到 5 的滞后（高于上限）处显示出显着的峰值，证实了从 Durbin-Watson 统计量得出的结论：

在此处输入图像描述

一阶自相关残差的存在违反了作为 OLS 回归方法基础的不相关残差假设。然而，已经开发了不同的方法来处理这样的系列。我读到的一种方法是将滞后因变量作为自变量包含在内。所以我创建了一个滞后stockVol1并将其添加到模型中：

在此处输入图像描述

现在，Durbin-Watson 是可以接受的 2,408。但显然，由于滞后变量，R 平方非常高，另请参见下面的系数：

在此处输入图像描述

我在遇到自相关时读到的另一种方法是使用 Prais-Winsten（或 Cochrane-Orcutt）方法进行自回归。执行此操作后，模型将显示：

在此处输入图像描述

这是我不明白的。两种不同的方法，我得到非常不同的结果。分析此数据的其他建议包括 (i) 不包括滞后变量，但通过差分重新格式化因变量 (ii) 执行 AR(1) 或 ARIMA(1,0,0) 模型。我没有计算这些，因为我现在不知道如何进行，因为我执行的两个测试的结果不同。

我应该使用什么模型对我的数据执行适当的回归？我非常想了解这一点，但以前从未分析过这样的时间序列数据集。

4个回答

对于 86 家公司中的每家，确定一个适当的 ARMAX 模型，该模型应包含两个用户建议的预测变量和任何必要的 ARIMA 结构的影响（同时期和滞后）。通过干预检测结合任何需要的（和经验可识别的）结构，以反映未指定的确定性影响。使用这些经验确定的干预变量来清理输出序列并使用清理后的序列作为 ARMAX 模型进行重构。现在回顾这 86 个案例研究中的每一个的结果，并得出一个通用模型的结论。在本地（即 86 家公司中的每家公司）估计通用模型，然后在全球范围内估计它（全部使用清理后的输出序列）。根据 Gregory Chow http://en.wikipedia.org/wiki/Chow_test形成 F 检验检验 86 个组中一组通用参数的原假设。如果您拒绝该假设，请仔细检查各个结果 (86) 并得出哪些公司与哪些公司不同的结论。我们最近将此功能添加到 AUTOBOX 的新版本中，这是我作为开发人员参与的一个软件。我们目前正在研究一种正式的方法来找出 ala Scheffe 哪些公司与其他公司不同。

收到数据后：

此处设置的完整数据输入链接描述可在此处找到，我选择了前 3 家公司（AA、AAPL、ABT）。根据 OP 的建议，我选择了交易量（S 列）作为依赖项和两个预测变量 tweet (Z) 和 wiki (V)。此选择可在此处输入链接描述中找到。三个相关系列的简单图表明异常在此处输入图像描述和和。由于存在异常，因此适当的回归需要考虑这些影响。以下是三个模型（包括两个输入中任何必要的滞后结构）和从使用 AUTOBOX（我过去 42 年来一直在开发的一个软件）运行的自动传递函数中获得的适当 ARIMA 结构在此处输入图像描述和和。我们现在采用从建模过程中返回的三个清理后的系列，并估计一个最小足够的通用模型，在这种情况下，它是推文上的一个当代和 1 滞后 PDL，以及一个 ARIMA 为 (1,0,0) 的 wiki 上的当代 PDL (0,0,0)。在本地和全球范围内估计此模型可以深入了解系数的共性。在此处输入图像描述与系数。用 3,291 df 的 F 值为 79 很容易拒绝通用性检验。请注意，复合分析的 DW 统计量为 2.63。此处介绍了系数的摘要。OP 海报反映，他唯一可以使用的软件不足以回答这个棘手的研究问题。

有几件事我会做不同的事情。

首先，因为每只股票都有不同的整体水平，你应该包括一组股票代码固定效应，这是一组用于特定观察是否属于特定股票代码的虚拟变量。

其次，股票价格（几乎？）总是假设有一个单位根。这意味着您的滞后变量的系数将为 1。它已经非常接近 (0.876)；如果没有固定效应，我们无法确定（因为可能存在偏差），但它非常暗示单位根。

为了正确推断，您必须查看股票价格的变化或股票价格对数的变化（后者大致等于百分比变化或回报，并且是通常使用的）。否则你会得到虚假的结果。作为一个额外的好处，这种差异实际上消除了对股票代码固定效果的需要。

第三，您的标准误可能太小。您应该使用在股票代码级别聚集的标准错误。这有助于解释误差项中剩余的序列相关性。

这些问题应该在任何参考面板数据时讨论，面板数据是您正在使用的数据类型的常用名称。Wooldridge 的本科生计量经济学入门教科书或研究生的横截面和面板数据的计量经济学分析是常见的参考资料。

在某些方面，模型似乎相当一致。估计的标准误差和 Durbin-Watson 统计量在两个模型之间非常相似。此外，常数项和回归量 hbVolLog 和 wikiLog 在这两个模型中都很重要。主要区别似乎是第一个模型包括因变量的滞后值，这似乎解释了 R 平方的大幅增加。所以我觉得结果没有什么奇怪的。它只是指出了预测 StockVol0 时滞后变量的强度。令我困惑的是，为什么调整后的 R 平方与未调整的相同，而不是稍微低一些。

这个问题有几种可能性，我能引用的最好的讨论是计量经济学理论与实践，第 2 版，George Judege、WE Griffiths、R. Carter Hill、Helmut Lutkepohl 和 Tsoung-Chao Lee，Wiley 系列概率和数理统计 1985 年，第 13 章，结合时间序列和横截面数据的模型中的推理。听起来过时了，但我一直在研究回归到这个资源的岭回归。这是一本很大很全面的书。抱歉我没有更多时间专门分析这个问题，但我可能会在我的博客 www.businessforecastblog.com 中就此类问题发表一篇文章

其它你可能感兴趣的问题

上一篇估计具有已知稀疏性的稀疏逆协方差矩阵下一篇样本方差对非正态数据有用吗？