数据挖掘 - 平方和与最大似然线性回归之间的差异 - 吾爱随笔录

平方和与最大似然线性回归之间的差异

数据挖掘机器学习线性回归

2022-03-11 13:55:10

我是机器学习的新手，我正在研究的第一个论点是线性回归。我明白，简而言之，使用线性回归的想法是学习一个假设，该假设可以将新输入 x 映射到 y 的良好近似中。

为了做到这一点，如果我的假设是：

h(x) = wx + w0

我必须更新我的参数，以最小化最小二乘之类的误差函数，并在梯度下降之类的优化算法的帮助下优化 w 向量。

我理解它是如何工作的，但有时我看到这个“最大似然估计”，我不明白它是否是估计 w 参数或其他东西的另一种方法。

2个回答

假设您构建了一个概率模型，其中被认为与您的在公式下有关； $y_i$ $x_i$

y_{i} = w_{1} x_{i} + w_{0} + ϵ_{i}

$y_i = w_1 x_i + w_0 + \epsilon_i$

所以和是你之前的目标参数，而是一个错误项，你期望它遵循一些概率分布，例如。重要的是它的期望为零。 $w_1$ $w_0$ $\epsilon_i$ $\mathcal{N}(0,\sigma^2)$

给定您的数据，您希望最大化返回每个的概率，因为您的数据服从于您的模型。从的概率等于，其中是 \epsilon 的概率密度函数即正态分布。 $y_i$ $x_i$ $y_i$ $x_i$ $f_{\epsilon}(y_i-w_1x_i-w_0)$ $f_{\epsilon}$ $\epsilon$

得到每个的可能性是它们的乘积， $y_i$

L = \prod_{i} f_{ϵ} (y_{i} - w_{1} x_{i} - w_{0})

$L = \prod_i f_{\epsilon}(y_i-w_1x_i-w_0)$

您想通过调整和来最大化这个值，因此命名为最大似然估计。 $w_1$ $w_0$

请注意，这相当于最大化对数似然，所以；

\log L = \sum_{i} \log f_{ϵ} (y_{i} - w_{1} x_{i} - w_{0})

$\log L = \sum_i \log f_{\epsilon}(y_i-w_1x_i-w_0)$

如果您查看正态分布密度函数，您会发现（在忽略一些常数之后）这会减少到最大化问题。

- \sum_{i} (y_{i} - w_{1} x_{i} - w_{0})^{2}

$- \sum_i (y_i-w_1x_i-w_0)^2$

或者换句话说，最小化类似于 OLS 的平方和。

但就像在 OLS 中使用不同的距离函数一样，您可以在 MLE 中参数化不同的误差分布。

只是为了添加到前面的响应中，最大似然估计实际上是一个非常通用的过程，用于使用假设由此产生的数据的参数分布，其中是参数化分布的一组未知常数。具体来说，最大似然估计旨在找到使我们的数据事后最可能的参数值。该技术很受欢迎，因为它具有直观的吸引力，并且因为最大似然估计具有某些大样本的最优性。 $f_\theta$ $\{ x_i \}_{i=1}^{n}$ $\theta$ $f$

正如@Attack68 指出的那样，在误差分布为高斯分布的独特情况下，线性回归中系数的最小二乘估计结果是最大似然估计。相反，如果我们使用其他分布，例如拉普拉斯算子，那么我们的似然函数变为

\prod_{i = 1}^{n} \frac{1}{2 σ} \exp (- \frac{| y_{i} - β^{T} x_{i} |}{σ}) = \frac{1}{(2 σ)^{n}} \exp (- \frac{\sum_{i = 1}^{n} | y_{i} - β^{T} x_{i} |}{σ}) .

$\prod_{i=1}^{n} \frac{1}{2 \sigma} \exp \left ( - \frac{|y_i - \beta^T x_i|}{\sigma} \right ) = \frac{1}{(2 \sigma )^n} \exp \left ( - \frac{ \sum_{i=1}^{n} |y_i - \beta^T x_i|}{\sigma} \right ) .$

的最大似然估计不是最小化平方和，而是基于绝对残差。这完全取决于我们对基础数据生成过程做出什么样的参数假设。 $\beta$

其它你可能感兴趣的问题

上一篇为什么我的随机森林中只有 3-4 个特征很重要？下一篇匹配相似的字符串