机器算法验证 - 正常残差是什么意思，这对我的数据有什么影响？ - 吾爱随笔录

正常残差是什么意思，这对我的数据有什么影响？

机器算法验证回归残差

2022-02-17 05:24:54

非常基本的问题：

线性回归的残差正态分布是什么意思？就回归而言，这如何反映我的原始数据？

我完全被难住了，谢谢大家

4个回答

线性回归实际上模拟了结果的条件期望值。这意味着：如果您知道回归参数的真实值（例如 $\beta_0$ 和 $\beta_1$ )，给定预测变量 X 的值，将其填入等式

E [Y | X] = β_{0} + β_{1} X

$E[Y|X] = \beta_0 + \beta_1 X$ 会让你计算期望值

Y

$Y$ 具有此给定值的所有（可能）观察值

X

$X$ .

然而：你真的不期待任何单曲 $Y$ 给定的值 $X$ 值完全等于（条件）均值。不是因为你的模型是错误的，而是因为你没有考虑到一些影响（例如测量误差）。所以这些 $Y$ 给定值 $X$ 值将围绕平均值波动（即几何上：围绕回归线的点 $X$ ）。

现在，正态性假设表明 $Y$ s 及其匹配 $E[Y|X]$ 服从均值为零的正态分布。这意味着，如果您有一个 $X$ 值，那么你可以采样一个 $Y$ 首先计算的值 $\beta_0 + \beta_1 X$ （即再次 $E[Y|X]$ ，回归线上的点），下一次采样 $\epsilon$ 从该正态分布并添加它们：

Y^{'} = E [Y | X] + ϵ

$Y'=E[Y|X] + \epsilon$

简而言之：这个正态分布代表了模型解释的可变性之上的结果的可变性。

注意：在大多数数据集中，您没有多个 $Y$ 任何给定的值 $X$ （除非您的预测变量集是分类的），但是这种正态性适用于整个人群，而不仅仅是数据集中的观察结果。

注意：我已经用一个预测器完成了线性回归的推理，但同样适用于更多：只需将上面的“line”替换为“hyperplane”。

残差的正态性是运行线性模型的假设。因此，如果您的残差是正常的，则意味着您的假设是有效的，并且模型推断（置信区间、模型预测）也应该是有效的。就是这么简单！

它可能意味着很多，也可能毫无意义。如果你拟合一个模型以获得最高的 R-Squared，这可能意味着你很愚蠢。如果您将模型拟合为简约，因为变量是必要和需要的，并且注意识别异常值，那么您做得很好。在此处查看有关此http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175的更多信息

在某些情况下，数据近似线性的假设允许我们使用 OLS 来最小化数据中远离直线的观测值的数量。

那么残差就是真实值和拟合值之间的差值，我们希望这个差值大约为零。

但在现实生活中的大多数情况下，适当的数据不是线性的，因此我们可以使用一些处理方法或一些估计方法，例如稳健的工具。

其它你可能感兴趣的问题