多元回归中因变量的正态性转换

机器算法验证 多重回归 数据转换 线性模型 假设 正态假设
2022-03-28 18:51:44

在多元回归中归一化因变量真的很重要还是有任何例外?

当 DV 未标准化(转换)时,我的模型提供了更好的结果和更重要的假设。将不胜感激的意见。

1个回答

我计划通过回归假设的良好列表(带有讨论)链接到具有多重回归假设的答案的答案,但我找不到完全适合我的想法的答案。有很多关于这些问题的讨论(尤其是在评论中),但并不是我认为在一个地方需要的所有内容。

回归模型如下所示:

在此处输入图像描述

大多数回归假设与模型的误差分量有关。

因此,是时候进行多元回归假设了。[通常不建议对假设进行正式的假设检验——对于初学者来说,它主要回答了错误的问题。诊断显示(例如残差图)是常用的。]

这是组织列表的一种典型方式,但根据您如何构建事物,人们可能会添加更多或将它们组合在一起有点不同。大致按重要性排序:

0.拟合回归不需要这些假设,也许(可以说)第一个除外。在进行假设检验和产生置信区间以及 - 最重要的是 - 预测区间(其中有几个相当重要)时,这些假设可能很重要。

  1. 均值模型是正确的(“线性”)。假设模型在(提供的)预测变量中是线性的,在参数中是线性的*。(注意,如果您提供正确的预测变量,例如,二次模型甚至正弦模型在预测变量中仍然可以是线性的。)

    *(在大多数情况下,所有重要的术语都包括在内)

    这可以通过根据拟合值或任何可能具有非线性关系的自变量检查残差来检查;添加变量图可用于查看模型中没有的任何变量是否重要。

  2. 观察没有错误x

    这通常不是您可以通过查看数据集本身来评估的。它通常会从了解变量以及如何收集它们开始。一个人的身高可能被视为固定的(即使它的测量值会随时间变化和测量误差) - 变化非常小,但例如一个人的血压通常变化更大 - 如果你测量一个稍晚点第二次,可能会大不相同。

  3. 恒定误差方差(“同方差”)。

    这通常可以通过以下方式进行评估:(i)通过查看残差与拟合(检查与均值相关的方差)或与误差方差特别预期相关的变量;或(ii)针对相同的事物查看残差平方的某些函数(作为观察方差的最佳可用度量)。

    例如,R 的线性回归的默认诊断显示之一是与拟合值的图,其中是标准化残差,它将是平方标准化残差的第四个根。这种变换主要用于使分布不那么偏斜,便于比较而不被最大值所支配,但它也有助于不使分布的相对适度的变化看起来非常剧烈,因为它们可能与 sat 平方残差一样。|ri|ri

  4. 独立。假设错误是相互独立的(和的)。x

    错误可以通过多种方式表现出依赖性。您通常需要对依赖形式的一些预先期望来评估它。如果随着时间的推移(或沿某个空间维度)观察数据,则序列依赖性将是一个显而易见的检查(可能通过样本自相关函数图)。

  5. 假设错误是正常的(均值为零)。

    关于零均值整体的假设是不可检查的,因为任何非零均值都被吸收到截距(常数)项中。局部非零均值将在残差与拟合图中显示为缺乏拟合。可以通过 QQ 图评估(例如)正态性假设。

在较大的样本中,最后一个假设变得不那么重要,除了预测区间(它对于通常的正态理论推断总是很重要)。

请注意,因变量 ( ) 的集合并不假定是正常的。值(IV) 的任何给定组合下,它们都是正常的,但是的整个样本将是具有不同均值的正常的混合......并且 - 取决于自变量值组合的特定集合,这可能是非常不正常的。YxY

也就是说,看 IV 的分布来评估正态假设是没有意义的,因为这不是假设的正态假设。对于最常见的推理形式,误差项被假定为正常,您通过残差进行估计。


请注意,即使执行推理也不需要假设正态性;有许多替代方法允许通过假设检验(例如置换检验)或置信区间(例如引导区间或基于残差和预测变量之间的非参数相关性的区间)以及两种形式的推断之间的关系进行推断;线性回归也可以适应不同的参数假设(例如,用身份链接拟合泊松或伽马 GLM。

非正态理论拟合的例子:

(a)这里说明了一个——图中的红线是使用 Gamma GLM 拟合的线性回归(参数假设);系数的检验很容易从 GLM 输出中获得;这种方法也很容易推广到“多元回归”。

(b)这个答案显示了基于非参数相关性的估计线;可以为这些生成测试和间隔。


转型实现常态的大问题

假设所有其他回归假设都是合理的,除了正态假设。

然后你应用一些非线性变换,希望使残差看起来更正常。

突然之间,你之前的线性关系不再是线性的。

突然之间,你关于拟合的点分布不再是恒定的。

可能比正常情况更重要的两个假设不再适用。