机器算法验证 - 从通用到特定的子集选择（“Autometrics”）在宏观经济学中表现良好 - 吾爱随笔录

从通用到特定的子集选择（“Autometrics”）在宏观经济学中表现良好

机器算法验证时间序列特征选择模型选择宏观经济学自动算法

2022-04-03 11:39:46

我想知道为什么从通用到特定 (GETS) 子集选择，尤其是Autometrics算法在宏观经济建模/预测中表现良好。

Autometrics是如何工作的？

Doornik "Autometrics" (2009) 提供了完整的描述（算法方案请参见第 7-8 页）。
该算法基于具有资格的逐步子集选择，并包括诊断测试。
下面列出了几个主要功能。
一般模型被表述为具有
(i) 主要变量、
(ii) 其大量滞后以及在后续版本中
(iii) 脉冲（用于脉冲指示饱和 (IIS) 或阶跃指示饱和 (SIS) 技术的线性模型）考虑可能的结构断裂）和
（iv）非线性变换。
该算法从一般模型开始逐步选择，并沿着多条路径进行。
变量不仅可以被删除，而且可以在每个步骤中添加（除了包含所有变量的初始步骤）。
显着性检验用于变量去除/包含。
当搜索终止时（基于变量的重要性），进行诊断测试。不良模型不再考虑。

Autometrics 的表现如何？

从David F. Hendry 爵士、Jurgen A. Doornik等人的作品中可以看出Autometrics的良好性能。（在链接中，请参阅有关模型选择、Autometrics和相关的作品）。当然，独立作者的经验会比Autometrics的“父亲”的经验更可信。
Kock & Teräsvirta “2007-2009 年经济危机期间三种自动化建模技术的预测性能”（2014 年）发现：

[ Autometrics ] 当模型与现实有合理的近似时效果很好，但在不是时效果较差。在直接预测中，人们面临的是后一种情况……看来，Autometrics可能不是构建直接多期预测模型的合适工具。但是，当研究人员数据集中的变量子集很好地近似数据生成过程时，它可能是一个很好的选择。

Epprecht 等人。“比较线性回归的变量选择技术：LASSO 和 Autometrics”（2013 年）发现 Autometrics 和 LASSO 在不同方面和不同设置中的表现优于对方。
Hendry 自己的Autometrics性能测试中的典型设置是正确模型是一般模型的子集。显示Autometrics以选择一个模型，该模型要么是真实的，要么非常接近它。
同时，在一般模型的锥形效应或相当大的错误规格下， Autometrics的表现可能不太好，例如上面的 Kock & Teräsvirta (2014)。

为什么好的表现令人惊讶？

由于没有收缩并且必须在大量变量中进行选择（这是 Hendry 和 Doornik 的许多作品中的设置），我预计 GETS 会失败。（例如，弗兰克·哈雷尔（Frank Harrell）在几个帖子中谴责了子集选择，例如1和2，尽管这些帖子并非特定于宏观经济时间序列。）
（问题） GETS 和Autometrics的良好性能是否可以特定于应用程序（主要是宏观经济时间序列建模），
或者Autometrics只是广义上的一种非常好的方法？

“LASSO/LARS vs 一般到特定（GETS）方法”是一个相关问题。

1个回答

Frank Harrell 不排除智能使用反向消除。他包括作为一种可能性（第 97 页，RMS，第 2 版）：

如果简约比准确性更重要，请进行有限的向后递减变量选择。

然而，这只能在已经明确指定的模型的上下文中完成。这是“'最终'模型”之前的最后一步。

正如本文从相关问题所强调的那样，GETS 中的变量选择必须从已经明确指定的模型开始：

搜索应该从一致的统计模型开始，以确保选择推断是可靠的。残差自相关和异方差等问题不仅揭示了错误规范。它们可以为测试计算提供不正确的系数标准误差。因此，该算法必须测试初始通用模型中的模型错误规范。

这与该站点上的许多问题有很大不同，那些没有明显统计背景的人通常似乎想要一个即插即用的方法来解决整个问题。他们从某种类型的多元回归开始，很少考虑潜在的主题、数据转换、时间序列中的特殊问题等，并且想自动确定“最重要的变量是什么”？

此外，GETS 似乎天生不适用于 $p>n$ 设置，在变量选择中出现了如此多的困难（和兴趣，以及糟糕的统计技术）。尽管时间序列超出了我的专业知识范围，但我怀疑已删除自相关的大型时间序列有效地提供了 $n\gg p$ ，还有很多自由度。我还想知道（没有任何扎实的时间序列知识）在实践中消除基于时间的自相关是否有助于最小化预测变量中其他非正交性的来源。

在将初始良好指定的模型简化为简化形式的步骤中，GETS 的各种风格都非常注意类型 I 和类型 II 错误之间的权衡，这可能会避免收缩校正（或将它们隐含在简化模型的估计）。

其它你可能感兴趣的问题

上一篇如何计算单个分类变量的 AUROC 下一篇如果您知道数据的中心矩，请找到具有任意中心矩的XXFfF( X)f(X)