损失函数和 MLE 有什么区别?

机器算法验证 回归 机器学习 最大似然 损失函数
2022-03-21 00:37:18

我正在尝试学习机器学习,但我不确定这些术语的含义。我知道可能性是要学习的参数的函数,我们希望最大化它,但我也知道我们使用损失函数拟合模型......

有人可以给出不同模式下的示例(例如离散朴素贝叶斯或逻辑回归中的 MLE 是什么),以及它们与损失函数的关系如何?

4个回答

损失函数是作为模型参数函数的模型失配的度量。损失函数比单纯的 MLE 更通用。

MLE 是一种特定类型的概率模型估计,其中损失函数是(对数)似然。套用 Matthew Drury 的评论,MLE 是证明概率模型损失函数的一种方法。

损失

在神经网络等机器学习应用中,损失函数用于评估模型的拟合优度。例如,考虑一个简单的神经网络,它有一个神经元和一个线性(恒等式)激活,它有一个输入x和一个输出y

y=b+wx

我们在样本数据集上训练这个 NN:观察。训练正在尝试不同的参数值,并使用损失函数检查拟合的好坏。假设我们要使用二次成本(xi,yi)i=1,,nb,w

C(e)=e2

那么我们有以下损失

Loss(b,w|x,y)=1ni=1nC(yibwxi)

学习意味着最小化这种损失:

minb,wLoss(b,w|x,y)

MLE 连接

你可以选择任何你想要的损失函数,或者适合你的问题。但是,有时损失函数选择遵循 MLE 方法来解决您的问题。例如,如果您处理高斯线性回归,则二次成本和上述损失函数是自然选择。就是这样。

假设您以某种方式知道真正的模型是 - 具有恒定方差的随机高斯误差。如果情况确实如此,那么参数的 MLE与使用上述具有二次成本(损失)的 NN 的最优解相同。

y=b+wx+ε
εN(0,σ2)b,w

请注意,在 NN 中,您不必总是选择与某种 MLE 方法匹配的成本(损失)函数。此外,虽然我使用神经网络描述了这种方法,但它适用于机器学习及其他领域的其他统计学习技术。

  • 在机器学习中,很多人不会过多地谈论假设(例如残差为高斯)。许多人认为这个问题是一个确定性问题,其中给出了(大量)数据,我们希望将损失最小化。

  • 在经典统计文献中,通常数据不会太多,人们谈论模型的概率解释,其中有很多概率假设(例如残差为高斯)。使用概率假设,可以计算似然性,并且损失函数可以是负似然性,而不是(或作为)最小化错误分类率的代表。

  • 考虑生成模型与判别模型的观点也很有趣。最大化似然通常来自生成模型,最小化损失通常来自判别模型。

有人可以给出不同模式下的示例(例如离散朴素贝叶斯或逻辑回归中的 MLE 是什么),以及它们与损失函数的关系如何?

当我们处理机器学习算法时,我们是:
1)指定一个具有参数的概率模型。例如这个答案中逻辑回归和朴素贝叶斯的参数。
2)从数据中学习这些参数的值(有时可能来自一些专家)。通常有两种方法:最大似然估计(MLE)和最大概率估计(MAP)。而MLE的关键点在于,经过训练学习到的参数可以使观察到的数据最有可能:资料来源:深度学习书 5.5例子可以看本教程的4.2 。 θML=argmaxExp^datalogpmodel(x;θ)

为了获得可以使观察到的数据最有可能的参数,我们需要获得似然函数并通过调整参数来优化它的值。L(θ)=i=1nf(Xi|θ)

其他参考:Stanford CS109 Parameter Estimation