计算科学 - 在具有多个参数的标量函数中寻找鞍点 - 吾爱随笔录

在具有多个参数的标量函数中寻找鞍点

计算科学优化朱莉娅

2021-11-29 14:31:26

我有一个真正有价值的功能，我们称之为 $f(\mathbf{x}, \mathbf{y})$ ，我想最大化 $\mathbf{x}\in\mathrm{R}^d$ 并将其最小化 $\mathbf{y}\in\mathrm{R}^q$ . 过了一会儿，我意识到我正在寻找一个鞍点的解决方案。我对这类问题没有经验。

谁能告诉我有什么算法可以处理这些问题？我在 Julia 工作，所以如果有人知道 Julia 中的一些实现，这将进一步帮助我。

注意：这最初是在 CrossValidated 论坛上发布的，但有人建议我把它移到这里。

1个回答

这取决于是否 $f$ 是可微分的 $x$ 和 $y$ ，以及函数在 $x$ / $y$ . 在最简单的情况下，您可以只写下必要的最优条件

(\begin{matrix} \nabla_{x} f (\bar{x}, \bar{y}) \\ \nabla_{y} f (\bar{x}, \bar{y}) \end{matrix}) = (\begin{matrix} 0 \\ 0 \end{matrix})

$\begin{pmatrix} \nabla_x f(\bar x,\bar y) \\ \nabla_y f(\bar x,\bar y) \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}$ 对于鞍点

(\bar{x}, \bar{y})

$(\bar x,\bar y)$ ，在哪里

\nabla_{x} f (x, y) \in R^{d}

$\nabla_x f(x,y)\in \mathbb{R}^d$ 是相对于的梯度

x

$x$ 等，并将牛顿方法应用于该非线性方程组。

或者，您可以使用迭代方法（各种称为ascent-descent、Arrow--Hurwicz或交替方向方法）： $x^0,y^0$ 并设置

\begin{aligned} x^{k + 1} & = x^{k} + α_{k} \nabla_{x} f (x^{k}, y^{k}) \\ y^{k + 1} & = y^{k} - α_{k} \nabla_{y} f (x^{k}, y^{k}) \end{aligned}

$\begin{aligned} x^{k+1} &= x^k + \alpha_k \nabla_x f(x^k,y^k)\\ y^{k+1} &= y^k - \alpha_k \nabla_y f(x^k,y^k) \end{aligned}$ 选择合适的步长

α_{k} > 0

$\alpha_k>0$ . 有多种版本使用

x^{k + 1}

$x^{k+1}$ 代替

x^{k}

$x^k$ 在更新中

y

$y$ 或者（在重新排序迭代之后）反之亦然，或者包括一个外推步骤。

如果 $f$ 不可微分但凸/凹，通过使用近端映射而不是梯度可以实现类似的方法；目前最广泛使用的特殊情况的方法 $f(x,y) = g(x)+h(y)$ 以原始对偶混合梯度方法的名称而闻名（或者通常，在提出它的论文的作者之后，Chambolle--Pock 方法）。

所有这些在 Matlab 中实现都相当简单（因此很容易移植到 Python 或 Julia）。

编辑：我应该指出，与非线性优化相比，没有找到非凸可微函数鞍点的一般理论（据我和谷歌所知）；我熟悉的所有作品都假设凸面/凹面或非常具体的结构 $f$ （例如，作为凸函数的差异或来自约束优化问题的拉格朗日）。以上只是对这些论文中使用的两类粗略方法的描述。

其它你可能感兴趣的问题

上一篇大型稀疏超定线性方程组的测试矩阵下一篇简单有界约束优化问题