我在这个网站上阅读了无数帖子,这些帖子非常反对使用任何类型的标准逐步选择变量,无论是基于 p 值、AIC、BIC 等。
我理解为什么这些程序一般来说对于变量的选择很差。gung 的可能著名的帖子在这里清楚地说明了原因;最终,我们将在我们用来提出假设的同一数据集上验证假设,这只是数据挖掘。此外,p 值受共线性和异常值等数量的影响,这些数量会严重扭曲结果等。
但是,我最近一直在研究时间序列预测,并且遇到了 Hyndman 备受推崇的教科书,他在这里特别提到了使用逐步选择来找到 ARIMA 模型的最佳顺序。事实上,在forecast
R 的包中,众所周知的算法auto.arima
默认使用逐步选择(使用 AIC,而不是 p 值)。他还批评了基于 p 值的特征选择,这与该网站上的多个帖子非常吻合。
最终,如果目标是开发用于预测/预测的良好模型,我们应该始终以某种方式进行交叉验证。然而,当涉及到除 p 值以外的评估指标的程序本身时,这肯定有点分歧。
有没有人对在这种情况下使用逐步 AIC 有任何意见,但在一般情况下也是如此?我被教导相信任何逐步选择都是糟糕的,但老实说,auto.arima(stepwise = TRUE)
从样本结果中得到的结果比我更好,auto.arima(stepwise = FALSE)
但也许这只是巧合。