人工智能 - 这种超参数优化方法是否产生最佳超参数？ - 吾爱随笔录

这种超参数优化方法是否产生最佳超参数？

人工智能机器学习超参数超参数优化

2021-11-07 16:52:09

假设我有一个训练成本不高的 ML 模型。它有大约 5 个超参数。

选择最佳超参数的一种方法是保持所有其他超参数固定，并通过在特定范围内仅更改一个超参数来训练模型。为了数学方便，我们假设超参数 $h^1$ ，保持所有其他超参数固定为其初始值，模型在以下情况下表现最佳 $h^1_{low} < h^1 < h^1_{high}$ （我们通过在大范围内运行模型发现 $h^1$ ）。现在我们，修复 $h^1$ 最好的价值观之一和调整 $h^2$ 同样的方式，在哪里 $h^1$ 被选中，其余的超参数再次固定在它们的初始值上。

我的问题是：这种方法是否找到模型的最佳超参数选择？我知道如果超参数是独立的，那么这肯定会找到最佳解决方案，但在一般情况下，围绕这个的一般理论是什么？（注意：我不是在问选择超参数的问题，而是在问前面提到的选择超参数的方法）

2个回答

计算后 $h^{1}_{optimal}$ 你唯一可以确定的是这是最好的（假设有约束的情况）值 $h^1$ （关于某些模型性能指标）给定您的初始值 $h^2, ..., h^n$ . 如果你改变一点 $h^2, ..., h^n$ 你不再确定价值 $h^1$ 你发现是最佳的。所以是的，这里的关键是关于独立性的假设。

超参数优化（HPO）背后的理论还没有得到很好的发展。尽管如此，还是有几种超参数优化方法，例如贝叶斯优化（使用高斯过程）、随机搜索、网格搜索、遗传算法等。例如，参见论文Hyperparameter Search in Machine Learning (2015)，它尝试形式化机器学习中的超参数优化问题，Random Search for Hyper-Parameter Optimization (2012)，以及相关的维基百科文章。

在机器学习中的超参数搜索（以及类似地，在超参数优化的随机搜索中）一文中，作者正式定义了超参数优化问题如下

\begin{aligned} (1) & λ^{*} & = {arg min}_{λ} L (X^{t e s t}; M = A (X^{t r a i n}; λ)) \end{aligned}

$\begin{align} \lambda^* &= \operatorname{arg min}_{\lambda}\mathcal{L}(X^{test}; \mathcal{M} = \mathcal{A}(X^{train}; \lambda)) \tag{1} \end{align}$

在哪里 $\lambda$ 是学习算法的超参数（例如梯度下降，其超参数是学习率和batch size），也就是用来训练模型的算法 $\mathcal{M}$ （例如，具有固定架构的卷积神经网络）使用训练（ $X^{train}$ ) 和测试 ( $X^{test}$ ) 数据集（为简单起见，忽略交叉验证和相关技术）。

简而言之，在等式中 $1$ ，我们想找到超参数 $\lambda$ 学习算法 $\mathcal{A}$ 最大限度地减少损失 $\mathcal{L}$ 在测试数据集上 $X^{test}$ , 当模型 $\mathcal{M}$ 训练使用 $\mathcal{A}$ 和训练数据集 $X^{train}$ .

方程 $1$ 因此忽略与模型相关的超参数（例如，多层感知器的层数）并且只考虑与学习算法相关的超参数。但是，请注意学习算法的最优超参数 $\mathcal{A}$ 取决于给定的训练和测试数据集，损失函数 $\mathcal{L}$ 和模型 $\mathcal{M}$ . 最终，公式在 $1$ 可以扩展到包括与模型相关的超参数（和其他超参数）。

因此，总的来说，HPO 方法（包括您提出的方法）的选择取决于几个因素，包括模型（及其架构）、需要解决的任务、损失函数、训练和测试数据集，以及 HPO 方法的计算复杂性和运行时效率。例如，如果超参数的空间是离散的并且很小，那么网格搜索（可以是穷举搜索）将为给定的任务和数据集找到超参数的最佳组合。但是，如果搜索空间很大，则网格搜索可能不切实际。

一般来说，您提出的方法不会是最佳的，因为正如您所说，超参数可能不是彼此独立的。例如，如果您使用随机梯度下降（即一次训练一个示例），您可能不想太快地更新模型的参数（也就是说，您可能不希望高学习率），假设单个训练样例不太可能给出能够在适当方向（即损失函数的全局甚至局部最优）更新参数的误差信号。但是，如果您使用批量梯度下降，批量大小越大，您就越有可能使用更高的学习率。这个例子只是为了给你一些直觉，但这可能并不适用于所有情况。

最常用的超参数优化方法（我上面提到的）似乎假设超参数通常不是相互独立的。事实上，这可能是一个正确的假设，因为在现实世界中，独立性假设几乎从不成立（例如，参见朴素贝叶斯分类器上下文中的相关讨论）。

其它你可能感兴趣的问题

上一篇有没有人能够通过他们的 DDPG 实现来解决 OpenAI 的铁杆双足步行者？下一篇如何在给定最小距离的情况下计算 K-means 聚类算法的质心数？