回归:为什么要测试整体残差的正态性,而不是条件残差是的^y^?

机器算法验证 回归 假设
2022-02-28 14:35:40

我知道在线性回归中,假设误差是正态分布的,以的预测值为条件。然后我们将残差视为错误的一种代理。y

通常建议生成这样的输出:非标准化残差的正态 QQ 图. 但是,我不明白获取每个数据点的残差并将其混合在一个图中的意义何在。

我知道我们不太可能有足够的数据点来正确评估我们在的每个预测值处是否有正态残差。y

的每个预测值的正态残差的模型假设没有明确相关的问题吗?难道我们不能在的每个预测值处都有正常的残差,而总体残差是非常不正常的吗?yy

2个回答

难道我们不能在 y 的每个预测值处都有正常的残差,而总体残差是非常不正常的吗?

不——至少,在标准假设下,错误的方差是恒定的。

您可以将整体残差的分布视为正态分布的混合(每个级别一个)。通过假设,所有这些正态分布都具有相同的均值 (0) 和相同的方差。因此,这种正态混合的分布本身就是一个正态分布。y^

因此,由此我们可以形成一个基于modus tollens的小三段论: if P then Q; 不是问;因此不是 P。在这种情况下,我们有:如果给定预测变量 X 的值的各个分布是正态的(并且它们的方差相等),那么整体残差的分布是正态的。因此,如果我们观察到整体残差的分布显然不是正态的,这意味着给定 X 的分布不是具有等方差的正态分布。这违反了标准假设。

@BigBendRegion 在评论中指出了一些我认为值得添加到此答案中以强调的内容。我上面概述的论点适用于反驳常态,但不能用来确认常态。也就是说,如果我们检查残差的边际分布并看到它确实看起来是正态的,这并不意味着以 X 为条件的残差是正态的(反例请参见此处)。就上述 P 和 Q 陈述而言,观察到 Q 为真并不意味着 P 为真。那将肯定结果

据说_当误差是同方差且序列不相关时,y 中的普通最小二乘法 (OLS) 在线性无偏估计量类中是最优的。关于同方差残差,残差的方差是相同的,与我们在 x 轴上测量残差幅度变化的位置无关。例如,假设我们的测量误差随着 y 值的增加成比例地增加。然后,我们可以在执行回归之前取这些 y 值的对数。如果这样做,则与不采用对数拟合比例误差模型相比,拟合质量会提高。通常,为了获得同方差性,我们可能必须取 y 或 x 轴数据的倒数、对数、平方或平方根,或应用指数。另一种方法是使用加权函数,(ymodel)2y2比最小化效果更好。(ymodel)2

说了这么多,经常会发生使残差更同方差会使它们更正态分布的情况,但通常,同方差属性更重要。后者将取决于我们执行回归的原因。例如,如果数据的平方根比取对数更符合正态分布,但误差是比例类型,则对数的 t 检验将有助于检测总体或测量值之间的差异,但有助于找到预期的我们应该使用数据的平方根,因为只有数据的平方根是一个对称分布,其均值、众数和中位数应该相等。

此外,经常发生我们不想要一个给我们 y 轴值的最小误差预测器的答案,并且这些回归可能有很大的偏差。例如,有时我们可能希望回归 x 中的最小误差。或者有时我们希望发现 y 和 x 之间的关系,这不是一个常规的回归问题。然后,我们可以使用 Theil,即中值斜率回归,作为 x 和 y 最小误差回归之间的最简单折衷。或者,如果我们知道 x 和 y 的重复测量方差是多少,我们可以使用戴明回归。当我们有远异常值时,泰尔回归会更好,这会对普通回归结果造成可怕的影响。而且,对于中值斜率回归,残差是否正态分布无关紧要。

顺便说一句,残差的正态性不一定会给我们任何有用的线性回归信息。例如,假设我们正在对两个独立的测量值进行重复测量。由于我们具有独立性,因此预期相关性为零,因此回归线斜率可以是没有有用斜率的任何随机数。我们重复测量以建立对位置的估计,即平均值(或中位数(具有一个峰值的柯西或 Beta 分布)或最普遍的总体预期值),并据此计算 x 的方差和方差在 y 中,然后可以将其用于戴明回归或其他。此外,如果原始总体是正常的,则叠加因此在相同的平均值上是正常的假设导致我们没有有用的线性回归。为了更进一步,假设我然后改变初始参数并使用不同的 Monte Carlo x 和 y 值函数生成位置建立新的测量,并在第一次运行时整理该数据。那么残差在每个 x 值的 y 方向上都是正常的,但是在 x 方向上,直方图会有两个峰值,这与 OLS 假设不符,并且我们的斜率和截距会出现偏差,因为一​​个x 轴上没有等间隔的数据。然而,整理数据的回归现在有一个明确的斜率和截距,而以前没有。此外,因为我们实际上只是通过重复采样来测试两个点,所以我们无法测试线性度。实际上,出于同样的原因,相关系数将不是一个可靠的测量方法,

相反,有时还假设误差具有以回归量为条件的正态分布。OLS 方法的有效性不需要此假设,尽管可以建立某些额外的有限样本属性以防万一(尤其是在假设检验领域),请参见此处. 那么什么时候OLS在你正确的回归?例如,如果我们每天在同一时间对股票价格进行测量,那么就不存在 t 轴(想想 x 轴)方差。但是,最后一次交易(结算)的时间将是随机分布的,并且发现变量之间关系的回归必须包含两个方差。在这种情况下,y 中的 OLS 只会估计 y 值的最小误差,这对于推断结算的交易价格来说是一个糟糕的选择,因为还需要预测结算的时间本身。此外,正态分布的误差可能不如Gamma 定价模型

那有什么关系?好吧,有些股票每分钟交易几次,而另一些则不是每天甚至每周都交易,这会产生相当大的数值差异。所以这取决于我们想要什么信息。如果我们想问明天收盘时市场将如何表现,这是一个 OLS“类型”问题,但是,答案可能是非线性的、非正态残差,并且需要具有与导数拟合(和/或更高矩)一致的形状系数的拟合函数,以建立正确的外推曲率. (可以拟合导数和函数,例如使用三次样条,因此导数一致性的概念不应该让人感到意外,尽管它很少被探索。)如果我们想知道我们是否会赚钱在特定股票上,我们不使用 OLS,因为问题是双变量的。