为什么在机器学习中没有更多地使用 Akaike 信息准则?

机器算法验证 机器学习 模型选择 aic 比克
2022-02-04 23:55:36

我刚刚遇到“Akaike 信息标准”,我注意到有大量关于模型选择的文献(似乎也存在 BIC 之类的东西)。

为什么当代机器学习方法不利用这些 BIC 和 AIC 模型选择标准?

1个回答

使用 AIC 和 BIC,例如在逐步回归中。它们实际上是更大类的“启发式”的一部分,也被使用。例如,DIC(偏差信息准则)经常用于贝叶斯模型选择。

但是,它们基本上是“启发式”。虽然可以证明,AIC 和 BIC 都渐近地趋向于交叉验证方法(我认为 AIC 趋向于留一法 CV,而 BIC 趋向于其他一些方法,但我不确定),它们被称为分别是少罚和多罚。即使用AIC,您经常会得到一个比应有的更复杂的模型,而使用BIC,您经常会得到一个过于简单的模型。

由于两者都与 CV 有关,因此 CV 通常是更好的选择,它不会受到这些问题的困扰。

最后是 BIC 和 AIC 所需的参数数量问题。使用实值输入上的通用函数逼近器(例如 KNN),可以“隐藏”参数,即构造一个包含与两个实数相同信息的实数(例如考虑相交数字)。在这种情况下,参数的实际数量是多少?另一方面,对于更复杂的模型,您可能对参数有限制,比如您只能拟合参数,使得θ1>θ2(参见例如这里)。或者您可能具有不可识别性,在这种情况下,参数的多个值实际上给出了相同的模型。在所有这些情况下,简单地计算参数并不能给出合适的估计。

由于许多当代机器学习算法显示了这些属性(即通用近似、参数数量不明确、不可识别性),因此 AIC 和 BIC 对这些模型的用处并不像乍看起来那样有用。

编辑

还有一些可以澄清的点:

  1. 通过将数字交错来考虑映射似乎是错误的RRN(见这里)。但是,为什么这不是双射的细节有点难以理解。然而,我们实际上并不需要双射来使这个想法起作用(一个射程就足够了)。
  2. 根据Cantor (1877)的证明,两者之间必定存在双射RRN. 虽然这个双射不能明确定义,但它的存在是可以证明的(但这需要未经证明的选择公理)。这种双射仍然可以在理论模型中使用(可能无法在计算机中实际实现该模型),将单个参数解包为任意数量的参数。
  3. 我们实际上并不需要之间的映射RRN成为双射。任意满射函数RRN足以从一个参数中解压缩多个参数。这样的投射可以被证明是作为对一系列其他函数的限制存在的(所谓的空间填充曲线,例如皮亚诺曲线)。
  4. 因为康托尔的证明既不是建设性的(它只是证明了双射的存在而没有给出例子),也不是空间填充曲线(因为它们只作为建设性对象的限制而存在,因此它们本身不是建设性的),论证 I做的只是理论上的证明。理论上,我们可以继续向模型添加参数以将 BIC 降低到任何所需值以下(在训练集上)。然而,在实际的模型实现中,我们必须逼近空间填充曲线,因此逼近误差可能会阻止我们实际这样做(我还没有实际测试过)。
  5. 因为这一切都需要选择公理,所以如果你不接受这个公理,证明就会失效(尽管大多数数学家都这样做)。这意味着,在建设性数学中这可能是不可能的,但我不知道建设性数学在统计中扮演什么角色。
  6. 可识别性本质上与功能复杂性相关。如果一个人只是拿一个可识别的N-参数模型并添加一个多余的参数(例如没有在任何地方使用),那么新模型变得不可识别。本质上,一个人使用的模型具有以下复杂性RN+1解决一个复杂的问题RN. 与其他形式的不可识别性类似。以不可识别的参数排列为例。在这种情况下,使用的模型具有以下复杂性RN,然而,实际问题仅具有一组等价类的复杂性RN. 然而,这只是一个非正式的论点,我不知道对“复杂性”这个概念有任何正式的处理。