机器算法验证 - 考虑我们可以选择多少变量的信息标准 - 吾爱随笔录

机器算法验证多重回归 aic 比克

2022-04-04 19:46:36

我正在运行一个多元回归模型，并希望使用 AIC 和 BIC 来选择模型。但是我注意到，这两种度量都没有考虑我们可以选择的变量数量，而只考虑了选择的变量数量。如果我有很多变量可供选择，我很可能会发现一些与我试图建模的东西高度相关的东西，这只是靠运气。是否有一个衡量我们可以选择多少变量的衡量标准？

1个回答

我认为简单的交叉验证是最合适的。

AIC 和 BIC 都考虑模型复杂性和可用信息量之间的平衡。有了更多的数据，就可以学习更复杂的模型。但是，这种平衡是固定的，不是基于数据的。

交叉验证基于数据。它还平衡了模型复杂性与可用信息量。有了更多的数据，可以学习更复杂的模型。未见数据的性能量化了模型的工作情况。隐含地，过于复杂（过度拟合）的模型会因为做出错误的预测而受到惩罚。

在许多变量的情况下，可以在训练期间选择高度相关的变量。然而，在测试过程中，很明显，学习到的关系不能推广到看不见的数据。

交叉验证的另一个优点是您可以选择自己的性能测量。

其它你可能感兴趣的问题