平方和与最大似然线性回归之间的差异

数据挖掘 机器学习 线性回归
2022-03-11 13:55:10

我是机器学习的新手,我正在研究的第一个论点是线性回归。我明白,简而言之,使用线性回归的想法是学习一个假设,该假设可以将新输入 x 映射到 y 的良好近似中。

为了做到这一点,如果我的假设是:

h(x) = wx + w0

我必须更新我的参数,以最小化最小二乘之类的误差函数,并在梯度下降之类的优化算法的帮助下优化 w 向量。

我理解它是如何工作的,但有时我看到这个“最大似然估计”,我不明白它是否是估计 w 参数或其他东西的另一种方法。

2个回答

假设您构建了一个概率模型,其中被认为与您的在公式下有关;yixi

yi=w1xi+w0+ϵi

所以是你之前的目标参数,而是一个错误项,你期望它遵循一些概率分布,例如重要的是它的期望为零。w1w0ϵiN(0,σ2)

给定您的数据,您希望最大化返回每个的概率,因为您的数据服从于您的模型。的概率等于,其中是 \epsilon 的概率密度函数即正态分布。yixiyixifϵ(yiw1xiw0)fϵϵ

得到每个的可能性是它们的乘积,yi

L=ifϵ(yiw1xiw0)

您想通过调整来最大化这个值,因此命名为最大似然估计。w1w0

请注意,这相当于最大化对数似然,所以;

logL=ilogfϵ(yiw1xiw0)

如果您查看正态分布密度函数,您会发现(在忽略一些常数之后)这会减少到最大化问题。

i(yiw1xiw0)2

或者换句话说,最小化类似于 OLS 的平方和。

但就像在 OLS 中使用不同的距离函数一样,您可以在 MLE 中参数化不同的误差分布。

只是为了添加到前面的响应中,最大似然估计实际上是一个非常通用的过程,用于使用假设由此产生的数据的参数分布,其中是参数化分布的一组未知常数。具体来说,最大似然估计旨在找到使我们的数据事后最可能的参数值。该技术很受欢迎,因为它具有直观的吸引力,并且因为最大似然估计具有某些大样本的最优性。fθ{xi}i=1nθf

正如@Attack68 指出的那样,在误差分布为高斯分布的独特情况下,线性回归中系数的最小二乘估计结果是最大似然估计。相反,如果我们使用其他分布,例如拉普拉斯算子,那么我们的似然函数变为

i=1n12σexp(|yiβTxi|σ)=1(2σ)nexp(i=1n|yiβTxi|σ).

的最大似然估计不是最小化平方和,而是基于绝对残差。这完全取决于我们对基础数据生成过程做出什么样的参数假设。β