我刚刚遇到“Akaike 信息标准”,我注意到有大量关于模型选择的文献(似乎也存在 BIC 之类的东西)。
为什么当代机器学习方法不利用这些 BIC 和 AIC 模型选择标准?
我刚刚遇到“Akaike 信息标准”,我注意到有大量关于模型选择的文献(似乎也存在 BIC 之类的东西)。
为什么当代机器学习方法不利用这些 BIC 和 AIC 模型选择标准?
使用 AIC 和 BIC,例如在逐步回归中。它们实际上是更大类的“启发式”的一部分,也被使用。例如,DIC(偏差信息准则)经常用于贝叶斯模型选择。
但是,它们基本上是“启发式”。虽然可以证明,AIC 和 BIC 都渐近地趋向于交叉验证方法(我认为 AIC 趋向于留一法 CV,而 BIC 趋向于其他一些方法,但我不确定),它们被称为分别是少罚和多罚。即使用AIC,您经常会得到一个比应有的更复杂的模型,而使用BIC,您经常会得到一个过于简单的模型。
由于两者都与 CV 有关,因此 CV 通常是更好的选择,它不会受到这些问题的困扰。
最后是 BIC 和 AIC 所需的参数数量问题。使用实值输入上的通用函数逼近器(例如 KNN),可以“隐藏”参数,即构造一个包含与两个实数相同信息的实数(例如考虑相交数字)。在这种情况下,参数的实际数量是多少?另一方面,对于更复杂的模型,您可能对参数有限制,比如您只能拟合参数,使得(参见例如这里)。或者您可能具有不可识别性,在这种情况下,参数的多个值实际上给出了相同的模型。在所有这些情况下,简单地计算参数并不能给出合适的估计。
由于许多当代机器学习算法显示了这些属性(即通用近似、参数数量不明确、不可识别性),因此 AIC 和 BIC 对这些模型的用处并不像乍看起来那样有用。
编辑:
还有一些可以澄清的点: