考虑我们可以选择多少变量的信息标准

机器算法验证 多重回归 aic 比克
2022-04-04 19:46:36

我正在运行一个多元回归模型,并希望使用 AIC 和 BIC 来选择模型。但是我注意到,这两种度量都没有考虑我们可以选择的变量数量,而只考虑了选择的变量数量。如果我有很多变量可供选择,我很可能会发现一些与我试图建模的东西高度相关的东西,这只是靠运气。是否有一个衡量我们可以选择多少变量的衡量标准?

1个回答

我认为简单的交叉验证是最合适的。

AIC 和 BIC 都考虑模型复杂性和可用信息量之间的平衡。有了更多的数据,就可以学习更复杂的模型。但是,这种平衡是固定的,不是基于数据的。

交叉验证基于数据。它还平衡了模型复杂性与可用信息量。有了更多的数据,可以学习更复杂的模型。未见数据的性能量化了模型的工作情况。隐含地,过于复杂(过度拟合)的模型会因为做出错误的预测而受到惩罚。

在许多变量的情况下,可以在训练期间选择高度相关的变量。然而,在测试过程中,很明显,学习到的关系不能推广到看不见的数据。

交叉验证的另一个优点是您可以选择自己的性能测量。