非常基本的问题:
线性回归的残差正态分布是什么意思?就回归而言,这如何反映我的原始数据?
我完全被难住了,谢谢大家
非常基本的问题:
线性回归的残差正态分布是什么意思?就回归而言,这如何反映我的原始数据?
我完全被难住了,谢谢大家
线性回归实际上模拟了结果的条件期望值。这意味着:如果您知道回归参数的真实值(例如和),给定预测变量 X 的值,将其填入等式
然而:你真的不期待任何单曲给定的值值完全等于(条件)均值。不是因为你的模型是错误的,而是因为你没有考虑到一些影响(例如测量误差)。所以这些给定值值将围绕平均值波动(即几何上:围绕回归线的点)。
现在,正态性假设表明s 及其匹配服从均值为零的正态分布。这意味着,如果您有一个值,那么你可以采样一个首先计算的值(即再次,回归线上的点),下一次采样从该正态分布并添加它们:
简而言之:这个正态分布代表了模型解释的可变性之上的结果的可变性。
注意:在大多数数据集中,您没有多个任何给定的值(除非您的预测变量集是分类的),但是这种正态性适用于整个人群,而不仅仅是数据集中的观察结果。
注意:我已经用一个预测器完成了线性回归的推理,但同样适用于更多:只需将上面的“line”替换为“hyperplane”。
残差的正态性是运行线性模型的假设。因此,如果您的残差是正常的,则意味着您的假设是有效的,并且模型推断(置信区间、模型预测)也应该是有效的。就是这么简单!
它可能意味着很多,也可能毫无意义。如果你拟合一个模型以获得最高的 R-Squared,这可能意味着你很愚蠢。如果您将模型拟合为简约,因为变量是必要和需要的,并且注意识别异常值,那么您做得很好。在此处查看有关此http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175的更多信息
在某些情况下,数据近似线性的假设允许我们使用 OLS 来最小化数据中远离直线的观测值的数量。
那么残差就是真实值和拟合值之间的差值,我们希望这个差值大约为零。
但在现实生活中的大多数情况下,适当的数据不是线性的,因此我们可以使用一些处理方法或一些估计方法,例如稳健的工具。