我正在运行一个多元回归模型,并希望使用 AIC 和 BIC 来选择模型。但是我注意到,这两种度量都没有考虑我们可以选择的变量数量,而只考虑了选择的变量数量。如果我有很多变量可供选择,我很可能会发现一些与我试图建模的东西高度相关的东西,这只是靠运气。是否有一个衡量我们可以选择多少变量的衡量标准?
考虑我们可以选择多少变量的信息标准
机器算法验证
多重回归
aic
比克
2022-04-04 19:46:36
1个回答
我认为简单的交叉验证是最合适的。
AIC 和 BIC 都考虑模型复杂性和可用信息量之间的平衡。有了更多的数据,就可以学习更复杂的模型。但是,这种平衡是固定的,不是基于数据的。
交叉验证基于数据。它还平衡了模型复杂性与可用信息量。有了更多的数据,可以学习更复杂的模型。未见数据的性能量化了模型的工作情况。隐含地,过于复杂(过度拟合)的模型会因为做出错误的预测而受到惩罚。
在许多变量的情况下,可以在训练期间选择高度相关的变量。然而,在测试过程中,很明显,学习到的关系不能推广到看不见的数据。
交叉验证的另一个优点是您可以选择自己的性能测量。
其它你可能感兴趣的问题