机器算法验证 - 求解封闭形式与梯度下降的回归参数 - 吾爱随笔录

求解封闭形式与梯度下降的回归参数

机器算法验证回归机器学习物流梯度下降

2022-01-29 21:46:54

在 Andrew Ng 的机器学习课程中，他介绍了线性回归和逻辑回归，并展示了如何使用梯度下降和牛顿法拟合模型参数。

我知道梯度下降在机器学习的某些应用（例如，反向传播）中可能很有用，但在更一般的情况下，有什么理由不解决封闭形式的参数 - 即，通过对成本函数和通过微积分求解？

当可用时，使用迭代算法（如梯度下降）相对于一般的封闭式解决方案有什么优势？

2个回答

除非封闭形式的解决方案计算起来非常昂贵，否则它通常是可用的方法。然而，

对于大多数非线性回归问题，没有封闭形式的解决方案。
即使在线性回归中（可以使用封闭形式解决方案的少数情况之一），使用该公式也可能不切实际。以下示例显示了这种情况发生的一种方式。

对于形式模型的线性回归 $y=X\beta$ ，在哪里 $X$ 是具有全列秩的矩阵，最小二乘解，

$\hat{\beta} = \arg \min \| X \beta -y \|_{2}$

是（谁）给的

$\hat{\beta}=(X^{T}X)^{-1}X^{T}y$

现在，假设是一个非常大但稀疏的矩阵。例如可能有 100,000 列和 1,000,000 行，但中只有 0.001% 的条目是非零的。有专门的数据结构用于仅存储此类稀疏矩阵的非零条目。 $X$ $X$ $X$

还假设我们很不幸，是一个相当密集的矩阵，其中非零条目的百分比要高得多。存储一个密集的 100,000 x 100,000 元素矩阵将需要浮点数（每个数字 8 个字节，这相当于 80 GB。）这对于存储任何东西都是不切实际的而是一台超级计算机。此外，该矩阵的逆矩阵（或更常见的 Cholesky 因子）也往往具有大部分非零条目。 $X^{T}X$ $X^{T}X$ $1 \times 10^{10}$

但是，有一些迭代方法可以解决最小二乘问题，它们不需要比、和更多的存储空间，并且永远不会显式地形成矩阵乘积。 $X$ $y$ $\hat{\beta}$ $X^{T}X$

在这种情况下，使用迭代方法比使用最小二乘问题的封闭形式解决方案的计算效率高得多。

这个例子可能看起来大得离谱。然而，这种规模的大型稀疏最小二乘问题通常在地震层析成像研究中通过台式计算机上的迭代方法来解决。

更新

对于线性回归，它是一步过程，因此不需要任何类型的迭代。

对于逻辑回归，Newton-Raphson 迭代方法使用目标函数对每个系数的二阶偏导数以及一阶偏导数，因此它的收敛速度比仅使用一阶偏导数的梯度下降快得多。

有几篇关于机器学习 (ML) 和回归的文章。求解普通最小二乘法 (OLS) 不需要 ML，因为它涉及求解线性方程组的一步矩阵夹层运算——即。一切都是线性的这一事实意味着只需要一步操作来求解系数。逻辑回归基于最大化似然函数，可以使用 Newton-Raphson 或其他 ML 梯度上升方法、元启发式（爬山、遗传算法、群体智能、蚁群优化等）求解. $\boldsymbol{\beta}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$ $L=\prod_i{p_i}$

关于简约性，将 ML 用于 OLS 将是浪费，因为迭代学习对于解决 OLS 效率低下。

现在，回到关于解决基于梯度问题的导数与 ML 方法的真正问题。具体来说，对于逻辑回归，通常使用 Newton-Raphson 的梯度下降（基于导数）方法。Newton-Raphson 要求您知道目标函数及其对每个参数的偏导数（在极限范围内连续且可微）。ML 主要用于目标函数太复杂（“几乎”）并且您不知道导数的情况。例如，当函数未知时，人工神经网络 (ANN) 可用于解决函数逼近问题或监督分类问题。在这种情况下，ANN 就是函数。

不要错误地使用 ML 方法来解决逻辑回归问题，因为你可以。对于逻辑，Newton-Raphson 速度极快，是解决问题的合适技术。当您不知道函数是什么时，通常使用 ML。（顺便说一下，ANN 来自计算智能领域，而不是 ML）。

其它你可能感兴趣的问题

上一篇如果残差是正态分布的，但 y 不是？下一篇PCA 中的载荷与特征向量：何时使用一个或另一个？