在《自动化机器学习:方法、系统、挑战》一书中的以下段落中(由 Frank Hutter 等人撰写)
在本节中,我们首先简要介绍贝叶斯优化,介绍其中使用的替代代理模型,描述条件和约束配置空间的扩展,然后讨论超参数优化的几个重要应用。
什么是“替代代理模型”?“另类”究竟是什么意思?
在《自动化机器学习:方法、系统、挑战》一书中的以下段落中(由 Frank Hutter 等人撰写)
在本节中,我们首先简要介绍贝叶斯优化,介绍其中使用的替代代理模型,描述条件和约束配置空间的扩展,然后讨论超参数优化的几个重要应用。
什么是“替代代理模型”?“另类”究竟是什么意思?
代理模型是一种简化模型。这是一个映射近似于原始模型,在给定的域中,相当不错。资料来源:通过代理建模进行工程设计:实用指南
在贝叶斯优化的背景下,想要优化一个函数评估成本高(非常耗时),因此需要优化代理模型评估更便宜(更快)。
贝叶斯优化 (BO)是一种优化技术,用于对未知(通常是连续的)函数进行建模, 其中通常, 所以它可以用来解决回归和分类问题,你想找到一个近似值. 从这个意义上说,BO 类似于通常使用梯度下降结合反向传播算法训练神经网络的方法,从而优化目标函数。然而,BO 特别适用于未知函数的回归或分类问题评估成本很高(即,给定输入, 的计算需要很多时间,或者一般来说,需要资源)。例如,在进行超参数调优时,我们通常需要先用新的超参数训练模型,然后再评估超参数的具体配置,但这通常需要很多时间(数小时、数天甚至数月) ,尤其是在使用大数据集训练深度神经网络时。此外,BO 不涉及梯度的计算,它通常假设缺乏诸如凹度或线性之类的特性。
BO中有三个主要概念
代理模型通常是一个高斯过程,它只是一个花哨的名字,用来表示一组随机变量,使得这些随机变量的联合分布是一个多元高斯概率分布(因此得名高斯过程)。因此,在 BO 中,我们经常使用高斯概率分布(代理模型)来对与数据一致的可能函数进行建模。换句话说,鉴于我们不知道,而不是像上面提到的监督学习的通常情况那样找到通常的点估计(或最大似然估计),我们保持高斯概率分布来描述我们对未知的不确定性.
统计推断的方法通常只是贝叶斯规则的迭代应用(因此称为贝叶斯优化),在给定先验、可能性和证据的情况下,您希望在其中找到后验。在 BO 中,您通常会先验,这是一个多元高斯分布,然后你使用贝叶斯规则找到后验分布给定数据。
这种情况下的数据是什么?在 BO 中,数据是在域的某些点进行评估. 获取函数用于选择域的这些点,基于计算的后验分布。换句话说,基于当前的不确定性(后验),获取函数试图巧妙地选择域的点,,它将用于查找更新的后验。为什么需要采集功能?为什么我们不能简单地评估在随机域点?鉴于评估成本很高,我们需要一种聪明的方法来选择我们想要评估的点. 更具体地说,我们要评估我们更不确定的地方。
获取函数有预期改进、知识梯度、熵搜索、预测熵搜索等多种获取函数,因此选择域的点有不同的方法。我们想要评估它以更新后验,每一个都以不同的方式处理探索-利用困境。
BO 可用于调整机器学习模型(例如神经网络)的超参数(也称为超参数优化),但它也已用于解决其他问题。
在您引用的《自动化机器学习:方法、系统、挑战》一书中(由 Frank Hutter 等人撰写),作者说常用的代理模型高斯过程在数据点的数量上呈三次方缩放,因此稀疏高斯过程是经常用到。此外,高斯过程也随着维度的数量而严重缩放。在第 1.3.2.2 节中。,作者描述了高斯过程的一些替代替代模型,例如,使用神经网络或随机森林的替代模型。
最近,我也在思考这个问题。看了几篇论文,终于想出了一些关于代理模型的想法。在FEM(有限元法)中,我们试图找到一个弱形式来逼近强形式,以便我们可以解析地求解弱形式。(弱形式:近似方程;强形式:现实世界中的 PDE) 在我看来,代理模型可以被视为“弱形式”。有很多方法可以形成代理模型。而如果我们使用一个NN模型作为代理模型,那么训练过程就相当于“解析求解”。