计算科学 - 模型参数的相关性对非线性优化器是否重要？ - 吾爱随笔录

模型参数的相关性对非线性优化器是否重要？

计算科学优化非线性规划

2021-11-29 14:46:12

我正在使用非线性优化器（例如 BOBYQA）来训练具有 10-20 个参数的模型。碰巧有些参数具有很高的相关性。粗略地说，假设您正在拟合参数 $a,b$ 在这样的函数中：

$f(x)=a\frac{x}{1+|x|}-b\frac{x^2}{1+|x|^2}$

对参数变化的响应 $a,b$ 远大于对变化的响应 $a-b$ . 如果我“旋转参数”以将粗响应与精细响应隔离开来，鲍威尔的非线性优化算法（如 BOBYQA、NEWUOA 等）的性能会提高吗？

也就是说，如果不是优化，非线性优化器会表现得更好吗 $a,b$ 在上面的函数中，我会优化参数 $\alpha,\beta$ 像这样的功能：

$g(x)=\alpha(\frac{x}{1+|x|}+\frac{x^2}{1+|x|^2})+\beta(\frac{x}{1+|x|}-\frac{x^2}{1+|x|^2})$

当然，真实模型更复杂，我想知道改变参数以最小化相关性是否有机会改进任何东西。

1个回答

如果可能，您希望为您的问题选择一个规模合理的目标，这意味着尽可能地对您的参数进行去相关。

对于目标函数的二次逼近，相关参数对应于椭圆形的目标函数等值面；等值面的理想形状大致为球形。在代数术语中，椭球等值面对应于病态 Hessian 矩阵（关系是 Hessian 的特征值的大小对应于椭球半轴的长度），对于二阶方法，病态 Hessian肯定会降低收敛性。根据经验，当一个人接近局部最优时，通过采取小的“之字形”步骤可以看到这种行为。从数值分析的角度来看，它注意到二阶方法采用的形式大致类似于

\begin{aligned} H (X^{n}) (X^{n + 1} - X^{n}) = - \nabla F (X^{n}), \end{aligned}

$\begin{align} H(x^{n})(x^{n+1} - x^{n}) = -\nabla{f}(x^{n}), \end{align}$

在哪里 $H$ 是黑森州， $f$ 是目标函数，并且 $\nabla{f}$ 是目标函数的梯度，产生一个病态线性系统，用数值方法无法准确求解。（这里，我假设牛顿法，但准牛顿法的操作类似。）

其它你可能感兴趣的问题

上一篇在哪里可以找到用于测试的 CAD 和网格模型？下一篇在云机器上从源代码构建 ATLAS 是否有意义？