机器算法验证 - 具有拉普拉斯误差的线性回归 - 吾爱随笔录

具有拉普拉斯误差的线性回归

机器算法验证回归拉普拉斯分布

2022-03-03 04:33:42

考虑一个线性回归模型：其中，即，均值的拉普拉斯分布尺度参数，都是相互独立的。考虑未知参数的最大似然估计：其中

y_{i} = x_{i} \cdot β + ε_{i}, i = 1, \dots, n,

$y_i = \mathbf x_i \cdot \boldsymbol \beta + \varepsilon _i, \, i=1,\ldots ,n,$

ε_{i} \sim L (0, b)

$\varepsilon _i \sim \mathcal L(0, b)$

0

$0$

b

$b$

β

$\boldsymbol \beta$

- \log p (y ∣ X, β, b) = n \log (2 b) + \frac{1}{b} \sum_{i = 1}^{n} | x_{i} \cdot β - y_{i} |

$-\log p(\mathbf y \mid \mathbf X, \boldsymbol \beta, b) = n\log (2b) + \frac 1b\sum _{i=1}^n |\mathbf x_i \cdot \boldsymbol \beta - y_i|$

{\hat{β}}_{M L} = {\arg min}_{β \in R^{m}} \sum_{i = 1}^{n} | x_{i} \cdot β - y_{i} |

$\hat{\boldsymbol \beta}_{\mathrm {ML}} = {\arg\min }_{\boldsymbol \beta \in \mathbb R^m} \sum _{i=1}^n |\mathbf x_i \cdot \boldsymbol \beta - y_i|$

如何在这个模型中找到残差分布 $\mathbf y - \mathbf X\hat{\boldsymbol \beta}_{\mathrm {ML}}$ ？

2个回答

残差（实际上称为误差）被假定为随机分布的双指数分布（拉普拉斯分布）。如果您要拟合此 x 和 y 数据点，请以数字方式进行。您首先使用上面发布的公式计算这些点的 beta-hat_ML。这将确定一条通过这些点的线。然后从该 x 值处的线的 y 值中减去每个点的 y 值。这是该点的残差。所有点的残差可用于构建直方图，该直方图将为您提供残差分布。

Yang (2014)有一篇很好的数学文章。

——李

我认为这相当于稳健回归。在稳健回归中，您最小化 1 范数，而不是 2 范数 - 并尝试找到正如你所写。 ${\arg\min }_{\boldsymbol \beta \in \mathbb R^m} \sum _{i=1}^n |\mathbf x_i \cdot \boldsymbol \beta - y_i|$

解决它的一种方法是使用代理来近似 1-范数，例如 Huber 损失：即用于一些小的平滑参数。所以现在损失是并且你可以使用类似 Gradient-Descent 的东西（现在可微）函数。 $h_\eta(x)=\sqrt {x^2+\eta}$ $\eta$ $\sum _{i=1}^n \sqrt{(\mathbf x_i \cdot \boldsymbol \beta - y_i)^2+\eta}$

这是我为 MATLAB 中的硬件练习编写的一些代码：

fun_g = @(u) sum( sqrt (u.^ 2 + eta^ 2 ));
fun_f = @(w) fun_g(X*w-z);
grad_g = @(u) u.*( 1. /( sqrt (u.^ 2 + eta^ 2 )));
grad_f = @(w) X'*grad_g(X*w-z);
grad = grad_f(w);
while (norm(grad) > epsilon)
    w = w - t*grad;
    fun_val = fun_f(w);
    grad = grad_f(w);
    fprintf( 'iter_number = %3d norm_grad = %2.6f fun_val = %2.6f\n' ,iter,norm(grad),fun_val);
end

其它你可能感兴趣的问题

上一篇可以使用 Frank Harrell 的方法来获得乐观校正的回归系数吗？下一篇如何构建“参考先验”？