最大似然估计和梯度下降有什么区别?

机器算法验证 最大似然 预测模型 优化 梯度下降
2022-02-13 05:14:58

这两种方法的优缺点是什么?

2个回答

最大似然估计通过最大化定义为的似然函数来估计统计模型中的参数的一般方法

L(θ|X)=f(X|θ)

也就是说,在的某个值的情况的概率。了解给定问题的似然函数后,您可以寻找使获得数据的概率最大化的有时我们知道估计器,例如算术平均值是正态分布参数的 MLE 估计器,但在其他情况下,您可以使用不同的方法,包括使用优化算法。ML 方法不会告诉你如何找到的最佳值——你可以简单地猜测并使用可能性来比较哪个猜测更好——它只是告诉你如何比较Xθθμθ的一个值比另一个“更有可能”。θ

梯度下降是一种优化算法您可以使用此算法找到许多不同函数的最小值(或最大值,然后称为梯度上升)。该算法并不真正关心它最小化的功能是什么,它只是做它所要求的。因此,使用优化算法时,您必须以某种方式知道如何判断感兴趣参数的一个值是否比另一个“更好”。你必须为你的算法提供一些函数来最小化,算法将处理找到它的最小值。

您可以使用不同的方法获得最大似然估计,使用优化算法就是其中之一。另一方面,梯度下降也可用于最大化似然函数以外的函数。

通常,当我们得到似然函数时,我们求解方程

f=l(θ)
dfdθ=0

我们可以得到的值,它可以给出 的最大值或最小值,完成!

θ
f

但是逻辑回归的似然函数通过这种方式没有封闭形式的解决方案。所以我们必须使用其他方法,例如gradient descent.