正常残差是什么意思,这对我的数据有什么影响?

机器算法验证 回归 残差
2022-02-17 05:24:54

非常基本的问题:

线性回归的残差正态分布是什么意思?就回归而言,这如何反映我的原始数据?

我完全被难住了,谢谢大家

4个回答

线性回归实际上模拟了结果的条件期望值。这意味着:如果您知道回归参数的真实值(例如β0β1),给定预测变量 X 的值,将其填入等式

E[Y|X]=β0+β1X
会让你计算期望值Y具有此给定值的所有(可能)观察值X.

然而:你真的不期待任何单曲Y给定的值X值完全等于(条件)均值。不是因为你的模型是错误的,而是因为你没有考虑到一些影响(例如测量误差)。所以这些Y给定值X值将围绕平均值波动(即几何上:围绕回归线的点X)。

现在,正态性假设表明Ys 及其匹配E[Y|X]服从均值为零的正态分布。这意味着,如果您有一个X值,那么你可以采样一个Y首先计算的值β0+β1X(即再次E[Y|X],回归线上的点),下一次采样ϵ从该正态分布并添加它们:

Y=E[Y|X]+ϵ

简而言之:这个正态分布代表了模型解释的可变性之上的结果的可变性。

注意:在大多数数据集中,您没有多个Y任何给定的值X(除非您的预测变量集是分类的),但是这种正态性适用于整个人群,而不仅仅是数据集中的观察结果。

注意:我已经用一个预测器完成了线性回归的推理,但同样适用于更多:只需将上面的“line”替换为“hyperplane”。

残差的正态性是运行线性模型的假设。因此,如果您的残差是正常的,则意味着您的假设是有效的,并且模型推断(置信区间、模型预测)也应该是有效的。就是这么简单!

它可能意味着很多,也可能毫无意义。如果你拟合一个模型以获得最高的 R-Squared,这可能意味着你很愚蠢。如果您将模型拟合为简约,因为变量是必要和需要的,并且注意识别异常值,那么您做得很好。在此处查看有关此http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175的更多信息

在某些情况下,数据近似线性的假设允许我们使用 OLS 来最小化数据中远离直线的观测值的数量。

那么残差就是真实值和拟合值之间的差值,我们希望这个差值大约为零。

但在现实生活中的大多数情况下,适当的数据不是线性的,因此我们可以使用一些处理方法或一些估计方法,例如稳健的工具。