我们真的需要包括“所有相关的预测因素”吗?

机器算法验证 回归 假设 偏见 预测器 混杂
2022-02-05 07:42:35

使用回归模型进行推理的一个基本假设是“所有相关的预测变量”都已包含在预测方程中。基本原理是未能包括重要的现实世界因素会导致有偏差的系数,从而导致不准确的推论(即,遗漏变量偏差)。

但在研究实践中,我从未见过任何人包括任何类似“所有相关预测因子”的东西。许多现象有无数重要的原因,如果不是不可能,也很难将它们全部包括在内。一个现成的例子是将抑郁症建模为结果:没有人建立任何接近包含“所有相关变量”的模型的东西:例如,父母的历史、性格特征、社会支持、收入、他们的互动等, ETC...

此外,除非样本量非常大,否则拟合如此复杂的模型会导致估计非常不稳定。

我的问题很简单:“包括所有相关预测变量”的假设/建议只是我们“说”但从未真正表示过的东西吗?如果不是,那我们为什么要把它作为实际的建模建议呢?

这是否意味着大多数系数可能具有误导性?(例如,仅使用几个预测变量的人格因素和抑郁症研究)。换句话说,这对我们的科学结论有多大的问题?

3个回答

你是对的——我们很少会说“所有相关的预测因素”是现实的。在实践中,我们可以满足于包含解释变量主要来源的预测变量。Y. 在对观察性研究中的风险因素或治疗进行推断的特殊情况下,这很少足够好。为此,混杂因素的调整需要非常积极,包括可能与结果相关的变量,以及可能治疗选择或您试图宣传的风险因素相关的变量。

有趣的是,对于正态线性模型,省略的协变量,特别是如果与包含的协变量正交,可以被认为只是扩大了误差项。在非线性模型(logistic、Cox 和许多其他模型)中,变量的省略可能会影响模型中包含的所有变量的影响(例如,由于优势比的不可折叠性)。

是的,您必须包括所有“相关变量”,但您必须对此精明。您必须考虑构建实验的方法,将您的现象的影响与不相关的东西隔离开来,这在现实世界(而不是教室)研究中是大量的。在你进入统计之前,你必须在你的领域做繁重的工作,而不是统计。

我鼓励你不要对包含所有相关变量持怀疑态度,因为这不仅是一个崇高的目标,而且因为它通常是可能的。我们不只是为了说这件事而说这件事。我们真的是认真的。事实上,设计能够包含所有相关变量的实验和研究是让科学真正有趣的原因,并且与机械样板“实验”不同。

为了激发我的发言动机,我将举一个伽利略如何研究加速度的例子。这是他对实际实验的描述(来自此网页):

取一块长约十二肘、宽半肘、厚三指宽的木条;在它的边缘上切出一条宽度略大于一根手指的通道;把这个凹槽做得非常直、光滑、抛光,并用羊皮纸衬里,也尽可能光滑和抛光,我们沿着它滚动一个坚硬、光滑、非常圆的青铜球。把这块木板放在一个倾斜的位置,把一端抬高一到两肘,就像我刚才说的那样,我们沿着通道滚动球,以即将描述的方式注意到所需的时间使下降。我们不止一次地重复了这个实验,以便准确地测量时间,使两次观察之间的偏差永远不会超过脉搏的十分之一。在执行了这个操作并确保了它的可靠性之后,我们现在只滚动了通道长度的四分之一;在测量了它下降的时间后,我们发现它正好是前者的一半。接下来我们尝试了其他距离,将整个长度的时间与一半的时间进行比较,或者与三分之二的时间,或四分之三的时间,或者实际上是任何分数的时间进行比较。在这样的实验中,重复了整整一百次,我们总是发现经过的空间彼此之间是时间的平方,这对于平面的所有倾斜都是正确的,即我们沿着通道滚动的通道球。我们还观察到,对于飞机的不同倾斜度,下降时间彼此之间的比率恰好是我们稍后将看到的比率,

为了测量时间,我们使用了一个放置在高处的大型水容器。在这个容器的底部焊接了一根小直径的管子,在每次下降时,我们将水流收集在一个小玻璃杯中,无论是整个通道长度还是部分长度;每次下降后,用非常精确的天平对如此收集的水进行称重;这些权重的差异和比率为我们提供了时间的差异和比率,并且其精确度如此之高,以至于尽管该操作被重复了很多次,但结果并没有明显的差异。

所以,伽利略的模型是

d=gt2,
在哪里d是经过的距离,g- 加速和t- 时间。他会在全距离滚动球d0=1并建立基准时间t0. 他继续以不同的方式进行 100 次测量di测量时间ti. 然后他计算d0/dit02/ti2. 如果他的模型是正确的,那么您将拥有
d0di=t02ti2
.

注意他是如何测量时间的。它是如此粗糙,以至于让我想起了这些天非自然科学如何衡量它们的变量,想到“客户满意度”或“效用”。他提到测量误差在十分之一单位时间内,顺便说一句。

他是否包括了所有相关变量?是他做的。现在,您必须了解所有物体都通过重力相互吸引。因此,理论上要计算球上的确切力,您必须将宇宙中的每个物体都添加到方程中。而且,更重要的是他没有包括表面阻力、空气阻力、角动量等。这些都影响了他的测量吗?是的。但是,它们与他正在研究的内容无关,因为他能够通过隔离他正在研究的财产的影响来减少或消除它们的影响。

现在,你会说他的系数(正好 2t2)是否具有误导性,因为他“没有控制实验之间的气压和温度变化”?不。尽管有所有的问题和限制,他还是能够正确地建立运动的主要定律,今天仍然保持着疯狂的精确度!他能够在没有统计软件包和计算机的情况下完成这项工作,因为他设计了一个伟大的实验,使得统计部分变得微不足道,几乎无关紧要。这就是你想要的想法。

为了使回归模型的假设完美成立,必须包括所有相关的预测变量。但是任何统计分析中的假设都不是完美的,并且大部分统计实践都基于“足够接近”。

通过实验设计和适当的随机化,模型中未包含的项的影响通常可以被忽略(假设随机化的机会相等)。但是,当完全随机化无法解释模型中未包含的所有可能变量时,通常会使用回归,因此您的问题确实变得很重要。

几乎每个拟合的回归模型都可能缺少一些潜在的预测变量,但“我不知道”如果没有任何进一步的说明,将不允许工作的统计学家继续工作,所以我们尽最大努力,然后尝试计算出差异有多大假设与现实之间的关系会影响我们的结果。在某些情况下,与假设的差异几乎没有什么区别,我们不太担心这种差异,但在其他情况下,它可能非常严重。

当您知道模型中可能不包含相关的预测变量时,一种选择是进行敏感性分析。这根据与未测量变量的潜在关系来衡量可能存在多少偏差。这张纸:

Lin,DY 和 Psaty,BM 和 Kronmal,RA。(1998):评估回归结果对观察研究中未测量的混杂因素的敏感性。Biometrics,54 (3),9 月,第 948-963 页。

给出了一些敏感性分析的工具(和例子)。