我是机器学习的新手,我正在研究的第一个论点是线性回归。我明白,简而言之,使用线性回归的想法是学习一个假设,该假设可以将新输入 x 映射到 y 的良好近似中。
为了做到这一点,如果我的假设是:
h(x) = wx + w0
我必须更新我的参数,以最小化最小二乘之类的误差函数,并在梯度下降之类的优化算法的帮助下优化 w 向量。
我理解它是如何工作的,但有时我看到这个“最大似然估计”,我不明白它是否是估计 w 参数或其他东西的另一种方法。
我是机器学习的新手,我正在研究的第一个论点是线性回归。我明白,简而言之,使用线性回归的想法是学习一个假设,该假设可以将新输入 x 映射到 y 的良好近似中。
为了做到这一点,如果我的假设是:
h(x) = wx + w0
我必须更新我的参数,以最小化最小二乘之类的误差函数,并在梯度下降之类的优化算法的帮助下优化 w 向量。
我理解它是如何工作的,但有时我看到这个“最大似然估计”,我不明白它是否是估计 w 参数或其他东西的另一种方法。
假设您构建了一个概率模型,其中被认为与您的在公式下有关;
所以和是你之前的目标参数,而是一个错误项,你期望它遵循一些概率分布,例如。重要的是它的期望为零。
给定您的数据,您希望最大化返回每个的概率,因为您的数据服从于您的模型。从的概率等于,其中是 \epsilon 的概率密度函数即正态分布。
得到每个的可能性是它们的乘积,
您想通过调整和来最大化这个值,因此命名为最大似然估计。
请注意,这相当于最大化对数似然,所以;
如果您查看正态分布密度函数,您会发现(在忽略一些常数之后)这会减少到最大化问题。
或者换句话说,最小化类似于 OLS 的平方和。
但就像在 OLS 中使用不同的距离函数一样,您可以在 MLE 中参数化不同的误差分布。
只是为了添加到前面的响应中,最大似然估计实际上是一个非常通用的过程,用于使用假设由此产生的数据的参数分布,其中是参数化分布的一组未知常数。具体来说,最大似然估计旨在找到使我们的数据事后最可能的参数值。该技术很受欢迎,因为它具有直观的吸引力,并且因为最大似然估计具有某些大样本的最优性。
正如@Attack68 指出的那样,在误差分布为高斯分布的独特情况下,线性回归中系数的最小二乘估计结果是最大似然估计。相反,如果我们使用其他分布,例如拉普拉斯算子,那么我们的似然函数变为
的最大似然估计不是最小化平方和,而是基于绝对残差。这完全取决于我们对基础数据生成过程做出什么样的参数假设。