模型选择和超参数调优有什么区别?

机器算法验证 预测模型 监督学习 超参数
2022-04-07 03:22:07

在监督学习的背景下,在大多数基于统计的文本和论文中,都会读到模型选择。例如,ESL 中的 Hastie、Tibshirani 和 Friedman 将其定义为:

  • 模型选择:估计性能以选择最佳模型。

另一方面,机器学习文献和论文通常谈论超参数优化或超参数调整。来自维基百科:

  • 在机器学习中,超参数优化或调整是为学习算法选择一组最优超参数的问题。

据我所知,两者都试图实现相同的目标(在一组预定义模型中选择最佳模型)并且可以使用类似的技术(例如交叉验证)。

但与此同时,模型选择似乎采用了某些在超参数优化中从未出现过的概念,例如使用 AIC 或 BIC 来选择最佳模型。

这只是术语上的差异,还是我缺少的两者之间存在概念上的差异?

1个回答

我看待它的方式(其他人可能不同意!)是这都是同一个问题,但某些超参数比其他超参数更容易判断和优化,而且你并不总是能够对每个方面给出可接受的量化考虑。

例如,您可以拟合脊惩罚逻辑回归并联合优化链接函数,包括哪些特征,以及通过搜索 以最小化负对数似然。但是,如果您处于典型的统计情况,这将是一个非常高的方差优化(它几乎是离散的,所以祝您好运为大量特征做好这件事)并且可能真的会损害您的泛化能力,再加上您无论如何,他可能会希望根据科学问题做出这些决定。所以不是你不能

{probit,logit}×{0,1}p×[0,)
将这些都视为一个大的超参数并对其进行优化,但更重要的是,这并不是一种有用的看待它的方式。因此,您应该选择一个合理的链接并包含您认为具有科学意义的所有特征,然后仅调整岭惩罚(如果您仍然想要进行岭回归)。

或者,也许您有 5 个不同的模型,并在 AIC/BIC 上对其进行评估。这就像有一个一维网格搜索,每个单元格都是一个模型,所以它实际上没有任何不同。但可能您不只是考虑 *IC 值,并且还有其他问题未由该数字表示,因此您实际上不会将其作为优化来执行,因为您的目标函数无法捕获问题的各个方面。其他参数,例如,没有太多的解释或科学问题,因此只需优化它是没有问题的,这也是可行的。λ

说到*IC,你绝对可以将AIC和BIC用于更多机器学习风格的模型。它们都具有交叉验证的渐近关系,因此它们都具有相同的想法。举个例子,我从 Demyanov 等人于 2012 年发现这篇论文基于 AIC 和 BIC 的基于 RBF 内核的 SVM 参数值估计方法。所以机器学习领域肯定有人在思考这些事情。

所以这是我的观点,至少:没有任何根本性的差异,但在实践中,有很多建模决策我们不只是要交叉验证,所以很高兴为它们提供其他工具。有时它是简单的标准,例如 *IC(这些不需要在多个子集上拟合模型,因此如果您不依赖它们,它们会非常方便),有时是对模型或科学问题的图形评估,有时我们可以将其简化为数值优化。