机器算法验证 - 模型选择和超参数调优有什么区别？ - 吾爱随笔录

模型选择和超参数调优有什么区别？

机器算法验证预测模型监督学习超参数

2022-04-07 03:22:07

在监督学习的背景下，在大多数基于统计的文本和论文中，都会读到模型选择。例如，ESL 中的 Hastie、Tibshirani 和 Friedman 将其定义为：

模型选择：估计性能以选择最佳模型。

另一方面，机器学习文献和论文通常谈论超参数优化或超参数调整。来自维基百科：

在机器学习中，超参数优化或调整是为学习算法选择一组最优超参数的问题。

据我所知，两者都试图实现相同的目标（在一组预定义模型中选择最佳模型）并且可以使用类似的技术（例如交叉验证）。

但与此同时，模型选择似乎采用了某些在超参数优化中从未出现过的概念，例如使用 AIC 或 BIC 来选择最佳模型。

这只是术语上的差异，还是我缺少的两者之间存在概念上的差异？

1个回答

我看待它的方式（其他人可能不同意！）是这都是同一个问题，但某些超参数比其他超参数更容易判断和优化，而且你并不总是能够对每个方面给出可接受的量化考虑。

例如，您可以拟合脊惩罚逻辑回归并联合优化链接函数，包括哪些特征，以及通过搜索以最小化负对数似然。但是，如果您处于典型的统计情况，这将是一个非常高的方差优化（它几乎是离散的，所以祝您好运为大量特征做好这件事）并且可能真的会损害您的泛化能力，再加上您无论如何，他可能会希望根据科学问题做出这些决定。所以不是你不能

{probit, logit} \times {0, 1}^{p} \times [0, \infty)

$\{\text{probit},\text{logit}\} \times \{0,1\}^p \times [0,\infty)$ 将这些都视为一个大的超参数并对其进行优化，但更重要的是，这并不是一种有用的看待它的方式。因此，您应该选择一个合理的链接并包含您认为具有科学意义的所有特征，然后仅调整岭惩罚（如果您仍然想要进行岭回归）。

或者，也许您有 5 个不同的模型，并在 AIC/BIC 上对其进行评估。这就像有一个一维网格搜索，每个单元格都是一个模型，所以它实际上没有任何不同。但可能您不只是考虑 *IC 值，并且还有其他问题未由该数字表示，因此您实际上不会将其作为优化来执行，因为您的目标函数无法捕获问题的各个方面。其他参数，例如，没有太多的解释或科学问题，因此只需优化它是没有问题的，这也是可行的。 $\lambda$

说到*IC，你绝对可以将AIC和BIC用于更多机器学习风格的模型。它们都具有交叉验证的渐近关系，因此它们都具有相同的想法。举个例子，我从 Demyanov 等人于 2012 年发现这篇论文基于 AIC 和 BIC 的基于 RBF 内核的 SVM 参数值估计方法。所以机器学习领域肯定有人在思考这些事情。

所以这是我的观点，至少：没有任何根本性的差异，但在实践中，有很多建模决策我们不只是要交叉验证，所以很高兴为它们提供其他工具。有时它是简单的标准，例如 *IC（这些不需要在多个子集上拟合模型，因此如果您不依赖它们，它们会非常方便），有时是对模型或科学问题的图形评估，有时我们可以将其简化为数值优化。

其它你可能感兴趣的问题

上一篇随机梯度下降是否有偏差？下一篇直觉（几何或其他）五r ( X _) = Vr ( E _[ X| 是] ) + E[五r ( X _| 是) ]Var(X)=Var(E[X|Y])+E[Var(X|Y)]