什么是“代理模型”?

人工智能 术语 定义 超参数优化 贝叶斯优化
2021-11-17 05:03:01

在《自动化机器学习:方法、系统、挑战》一书中的以下段落中(由 Frank Hutter 等人撰写)

在本节中,我们首先简要介绍贝叶斯优化,介绍其中使用的替代代理模型,描述条件和约束配置空间的扩展,然后讨论超参数优化的几个重要应用。

什么是“替代代理模型”?“另类”究竟是什么意思?

3个回答

代理模型是一种简化模型。这是一个映射yS=fS(x)近似于原始模型y=f(x),在给定的域中,相当不错。资料来源:通过代理建模进行工程设计:实用指南

在贝叶斯优化的背景下,想要优化一个函数y=f(x)评估成本高(非常耗时),因此需要优化代理模型yS=fS(x)评估更便宜(更快)。

什么是贝叶斯优化

介绍

贝叶斯优化 (BO)是一种优化技术,用于对未知通常是连续的)函数进行建模f:RdY, 其中通常d20, 所以它可以用来解决回归和分类问题,你想找到一个近似值f. 从这个意义上说,BO 类似于通常使用梯度下降结合反向传播算法训练神经网络的方法,从而优化目标函数。然而,BO 特别适用于未知函数的回归或分类问题f评估成本很高(即,给定输入xRd, 的计算f(x)Y需要很多时间,或者一般来说,需要资源)。例如,在进行超参数调优时,我们通常需要先用新的超参数训练模型,然后再评估超参数的具体配置,但这通常需要很多时间(数小时、数天甚至数月) ,尤其是在使用大数据集训练深度神经网络时。此外,BO 不涉及梯度的计算,它通常假设f缺乏诸如凹度或线性之类的特性

贝叶斯优化如何工作?

BO中有三个主要概念

  • 代理模型,它模拟一个未知函数,
  • 一种统计推断方法,用于更新代理模型,以及
  • 获取函数,用于指导统计推断,从而用于更新代理模型

代理模型通常是一个高斯过程,它只是一个花哨的名字,用来表示一组随机变量,使得这些随机变量的联合分布是一个多元高斯概率分布(因此得名高斯过程)。因此,在 BO 中,我们经常使用高斯概率分布(代理模型)来对与数据一致的可能函数进行建模。换句话说,鉴于我们不知道f,而不是像上面提到的监督学习的通常情况那样找到通常的点估计(或最大似然估计),我们保持高斯概率分布来描述我们对未知的不确定性f.

统计推断的方法通常只是贝叶斯规则的迭代应用(因此称为贝叶斯优化),在给定先验、可能性和证据的情况下,您希望在其中找到后验。在 BO 中,您通常会先验f,这是一个多元高斯分布,然后你使用贝叶斯规则找到后验分布f给定数据。

这种情况下的数据是什么?在 BO 中,数据是f在域的某些点进行评估f. 获取函数用于选择域的这些点f,基于计算的后验分布。换句话说,基于当前的不确定性f(后验),获取函数试图巧妙地选择域的点f,xRd,它将用于查找更新的后验。为什么需要采集功能?为什么我们不能简单地评估f在随机域点?鉴于f评估成本很高,我们需要一种聪明的方法来选择我们想要评估的点f. 更具体地说,我们要评估f我们更不确定的地方。

获取函数有预期改进、知识梯度、熵搜索预测熵搜索等多种获取函数,因此选择域的点有不同的方法。f我们想要评估它以更新后验,每一个都以不同的方式处理探索-利用困境。

贝叶斯优化可以用来做什么?

BO 可用于调整机器学习模型(例如神经网络)的超参数(也称为超参数优化),但它也已用于解决其他问题

什么是替代代理模型?

在您引用的《自动化机器学习:方法、系统、挑战》一书中(由 Frank Hutter 等人撰写),作者说常用的代理模型高斯过程在数据点的数量上呈三次方缩放,因此稀疏高斯过程是经常用到。此外,高斯过程也随着维度的数量而严重缩放。第 1.3.2.2 节中。,作者描述了高斯过程的一些替代替代模型,例如,使用神经网络或随机森林的替代模型。

最近,我也在思考这个问题。看了几篇论文,终于想出了一些关于代理模型的想法。在FEM(有限元法)中,我们试图找到一个弱形式来逼近强形式,以便我们可以解析地求解弱形式。(弱形式:近似方程;强形式:现实世界中的 PDE) 在我看来,代理模型可以被视为“弱形式”。有很多方法可以形成代理模型。而如果我们使用一个NN模型作为代理模型,那么训练过程就相当于“解析求解”。