为什么有些人在他们的原始数据上测试类似回归的模型假设,而其他人在残差上测试它们?

机器算法验证 回归 数据集 残差 假设
2022-03-27 04:45:42

我是一名实验心理学博士生,我努力提高我分析数据的技能和知识。

直到我在心理学的第 5 年,我认为类似回归的模型(例如,ANOVA)假设以下内容:

  • 数据的正态性
  • 数据的方差同质性等

我的本科课程让我相信这些假设是关于数据的。然而在我的第五年,我的一些导师强调了这样一个事实,即假设是关于错误(由残差估计)而不是原始数据。

最近我和我的一些同事讨论了假设问题,他们也承认他们只在大学的最后几年才发现检查残差假设的重要性。

如果我理解得很好,类似回归的模型会对错误做出假设。因此,检查残差的假设是有意义的。如果是这样,为什么有些人会检查原始数据的假设?是不是因为这样的检查程序近似于我们通过检查残差得到的结果?

我很想与一些比我和我的同事知识更准确的人讨论这个问题。我提前感谢你的回答。

2个回答

基本上,你在正确的轨道上。您会在因变量的正态性 = 残差的正态性中找到关于正态性方面的讨论?

经典线性模型的一些假设确实是关于错误的(使用残差作为它们的实现):

  • 它们不相关吗?(与 OLS 估计器的推理和最优性相关)
  • 它们的方差是否相等?(与 OLS 估计器的推理和最优性相关)
  • 它们以 0 为中心吗?(获得无偏估计和预测的关键假设)
  • 如果样本非常小:它们是正态分布还是至少对称分布?(与推理有关)

其他条件是关于“原始数据”:

  • 回归变量中没有总异常值吗?(高杠杆观察会破坏整个模型)
  • 没有完美的多重共线性?(至少在某些软件包中会导致计算问题)

现在,您的本科老师也可能是正确的:

  • 也许您专注于单变量测试,例如单样本 t 检验。在那里,假设是关于原始数据的。
  • 如果非常低并且响应变量看起来很正常,那么残差很可能也是如此。R2
  • 您将如何根据原始数据检查同方差性等?也许你误解了他或她。

我发现残差和原始数据之间的区别没有帮助,因为两者都更多地指的是您的实际样本,而不是潜在的人口分布。最好将某些要求视为“组内要求”,而将其他要求视为“组内假设”。

例如,方差同质性是“组间假设”,因为它说组内方差对于所有组都是相同的。

正态性是“组内”假设,它要求在每个组内 y 是正态分布的。

请注意,在整个原始 y 上保持正态通常意味着您没有影响 - 查看性别分布而不区分女性和男性。由于强烈的性别效应,它不会呈正态分布。但在每个性别中,它都保持得很好。