关于线性回归的一些最常见的误解是什么?

机器算法验证 回归 多重回归
2022-01-20 01:02:42

我很好奇,对于那些与其他研究人员合作有丰富经验的人,你遇到的关于线性回归的最常见的误解是什么?

我认为提前思考常见的误解可能是一个有用的练习,以便

  1. 预测人们的错误并能够成功地阐明为什么某些误解是不正确的

  2. 意识到我自己是否怀有一些误解!

我能想到的几个基本的:

自变量/因变量必须是正态分布的

变量必须标准化才能准确解释

还有其他人吗?

欢迎所有回复。

4个回答

错误前提:表示 DV 和 IV 之间没有强关系。β^0
非线性函数关系比比皆是,但如果假设关系必须是线性的,甚至近似线性,则由许多此类关系产生的数据通常会产生几乎为零的斜率。

相关地,在另一个错误的前提下,研究人员经常假设——可能是因为许多介绍性回归教科书教导——通过将 DV 的一系列回归构建到 IV 的多项式展开(例如,,然后是,接下来是Yβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε, ETC。)。正如直线不能很好地表示 DV 和 IV 之间的非线性函数关系一样,抛物线也不能很好地从字面上表示无限数量的非线性关系(例如,正弦曲线、摆线、阶跃函数、饱和效应、s 曲线等。无限)。可以改为采用不采用任何特定函数形式的回归方法(例如,运行线平滑器、GAM 等)。

第三个错误前提是增加估计参数的数量必然会导致统计功效的损失。当真正的关系是非线性的并且需要多个参数来估计时,这可能是错误的(例如,“断棒”函数不仅需要直线的截距斜率项,还需要斜率变化的点以及如何坡度变化很大估计):错误指定的模型(例如,一条直线)的残差可能会变得非常大(相对于正确指定的函数关系),从而导致较低的拒绝概率和更宽的置信区间和预测区间(除了估计有偏差)。

通常假设只有数据会受到测量误差的影响(或者至少,这是我们要考虑的唯一误差)。但这忽略了测量中误差的可能性和后果。变量不受实验控制的观察性研究中可能特别严重。yxx

回归稀释回归衰减是 Spearman (1904) 认识到的现象,即简单线性回归中估计的回归斜率由于自变量中存在测量误差而偏向零。假设真正的斜率是正的——抖动点的坐标(也许最容易被视为水平“模糊”点)的效果是使回归线不那么陡峭。直观地说,由于正测量误差,现在具有较大的点更有可能如此,而值更可能反映,因此低于真实线将是对于观察到的xxyxx

在更复杂的模型中,变量的测量误差会对参数估计产生更复杂的影响。变量模型中存在考虑到此类错误的错误。Spearman 提出了一种用于消除双变量相关系数的校正因子,并且已经针对更复杂的情况开发了其他校正因子。然而,这样的修正可能很困难——特别是在多变量情况下和存在混杂因素的情况下——并且修正是否是真正的改进可能是有争议的,参见例如 Smith 和 Phillips (1996)。x

所以我想这是对价格的两个误解——一方面认为我们写的方式意味着“所有错误都在中”并忽略非常自变量中测量误差的物理真实可能性。另一方面,在诸如膝跳反应等所有情况下盲目地对测量误差进行“校正”可能是不可取的(尽管首先采取措施减少测量误差可能是个好主意) .y=Xβ+εy

(我可能还应该链接到其他一些常见的变量误差模型,以越来越普遍的顺序:正交回归戴明回归总最小二乘法。)

参考

在此上下文以及其他统计上下文中存在一些适用的标准误解:例如,值的含义、错误地推断因果关系等。 p

我认为特定于多元回归的一些误解是:

  1. 认为具有较大估计系数和/或较低值的变量“更重要”。 p
  2. 认为向模型添加更多变量会让你“更接近真相”。例如,之间真正的直接关系,但如果我添加变量,该系数将更好地表示真实关系,并且如果我添加,它会比这更好。 YXXYZ1,,Z5Z6,,Z20

我想说你列出的第一个可能是最常见的——也许是最广泛教授的——在明显被认为是错误的事情中,但这里有一些在某些情况下不太清楚的事情(它们是否真的适用)但可能会影响更多的分析,甚至可能更严重。在介绍回归主题时,这些通常根本不会被提及。

  • 将不可能接近代表性的观测值集合视为来自感兴趣群体的随机样本(更不用说随机抽样了)。[有些研究可能被视为更接近于便利样本]

  • 使用观测数据,简单地忽略忽略过程的重要驱动因素的后果,这肯定会使所包含变量的系数估计值产生偏差(在许多情况下,甚至可能改变它们的符号),而没有尝试考虑处理方式和他们在一起(无论是出于对问题的无知还是只是不知道可以做任何事情)。[一些研究领域比其他研究领域更容易出现这个问题,无论是因为收集的数据类型,还是因为某些应用领域的人们更有可能被告知这个问题。]

  • 虚假回归(主要是随时间收集的数据)。[即使人们意识到它发生了,还有另一个常见的误解,即简单地与假定的静止差分就足以完全避免问题。]

当然,还有许多其他人可以提到(例如,将几乎可以肯定是串行相关甚至集成的独立数据视为常见的数据)。

您可能会注意到,随着时间的推移收集的数据的观察性研究可能会同时受到所有这些影响……但这种研究在回归是标准工具的许多研究领域中非常普遍。在没有一个审稿人或编辑知道其中至少一个并且至少在结论中要求某种程度的免责声明的情况下,他们如何才能出版,这让我继续担心。

在处理相当严格控制的实验时(与可能不那么严格控制的分析相结合),统计数据充满了不可重现的结果,所以一旦超出这些界限,重现性情况会变得更糟吗?