为什么我们需要多元回归(而不是一堆单变量回归)?

机器算法验证 回归 多重回归 推理 多元回归
2022-02-03 11:31:18

我刚刚浏览了这本精彩的书:Johnson 和 Wichern 的《应用多元统计分析》具有讽刺意味的是,我仍然无法理解使用多变量(回归)模型而不是单独的单变量(回归)模型的动机。我浏览了 stats.statexchange 帖子12,它们解释了 (a) 多元回归和多元回归之间的差异和 (b) 多元回归结果的解释,但我无法从我的所有信息中调整多元统计模型的使用上网了解他们。

我的问题是:

  1. 为什么我们需要多元回归?为了得出推论,同时考虑结果而不是单独考虑结果有什么好处。
  2. 何时使用多变量模型以及何时使用多个单变量模型(针对多个结果)。
  3. UCLA 网站中给出的示例为例,它具有三个结果:控制点、自我概念和动机。关于 1. 和 2.,当我们做三个单变量多元回归和一个多元多元回归时,我们可以比较分析吗?如何证明一个优于另一个?
  4. 我没有遇到过很多利用多元统计模型的学术论文。这是因为多元正态性假设、模型拟合/解释的复杂性还是任何其他具体原因?
4个回答

您是否阅读了您链接的 UCLA 网站上的完整示例?

关于 1:
使用多元模型可以帮助您(正式地、推论地)比较结果之间的系数。
在该链接示例中,他们使用多变量模型来测试结果与结果的write系数是否显着不同我不是心理学家,但大概问问你的写作能力是否以同样的方式影响/预测两个不同的心理变量是很有趣的。(或者,如果我们不相信空值,那么询问您是否收集了足够的数据以令人信服地证明效果确实不同仍然很有趣 如果您进行单独的单变量分析,则比较难以比较locus_of_controlself_concept
write两个模型的系数。两个估计都来自同一个数据集,因此它们是相关的。多元模型解释了这种相关性。

另外,关于 4:
一些非常常用的多元模型,例如重复测量方差分析通过适当的研究设计,假设您将几种药物中的每一种给予每位患者,并在每种药物后测量每位患者的健康状况。或者想象你随着时间的推移测量相同的结果,就像纵向数据一样,比如随着时间的推移儿童的身高。然后,每个单元都有多个结果(即使它们只是“相同”测量类型的重复)。您可能至少想做一些简单的对比:比较药物 A 与药物 B 的效果,或药物 A 和 B 与安慰剂的平均效果。为此,重复测量方差分析是一种适当的多变量统计模型/分析。

想想所有错误的、有时是危险的结论,这些结论来自简单的概率相乘,认为事件是独立的。 由于所有内置的冗余保障措施,我们投入到我们的核电站专家使用独立假设告诉我们,发生重大核事故的机会是无限小的。 但正如我们在三英里岛看到的那样,人类会犯相关的错误,尤其是当他们因为一个初始错误而陷入恐慌时,这种错误很快就会复合起来。构建一个描述人类行为特征的现实多变量模型可能很困难,但实现可怕模型(独立错误)的影响是显而易见的。

还有许多其他可能的例子。我将以挑战者航天飞机灾难作为另一个可能的例子。 问题是是否在低温条件下发射。有一些数据表明 O 形圈可能在低温下失效。但是,通过的任务并没有太多数据来说明风险有多高。美国宇航局一直关注宇航员的安全,并且在航天器和运载火箭中设计了许多冗余,以确保任务安全。

然而,在 1986 年之前,可能由于未识别所有可能的故障模式(一项艰巨的任务)而导致一些系统故障和接近故障。可靠性建模是一项艰巨的任务。不过那是另一回事了。在航天飞机的情况下,O 型圈的制造商 (Morton Thiokol) 对 O 型圈进行了一些测试,表明在低温下可能会出现故障。

但有限数量的任务数据确实显示了温度和故障之间的某种关系,但由于冗余导致一些管理员认为不会发生多个 O 形圈故障,他们向 NASA 施加了发射压力。

当然,还有许多其他因素导致了这个决定。请记住,里根总统是如何急于将一名教师送入太空,以证明现在已经足够安全非宇航员的普通人可以安全地乘坐航天飞机旅行。因此,政治压力是影响该决定的另一个重要因素。在这种情况下,如果有足够的数据和多变量模型,则可以更好地证明风险。美国国家航空航天局过去常常试图在谨慎方面犯错。在这种情况下,将发射推迟几天直到佛罗里达州的天气变暖是谨慎的做法。

灾后委员会、工程师、科学家和统计学家进行了大量分析并发表了论文。他们的观点可能与我不同。Edward Tufte 在他的一本关于图形的系列书籍中表明,好的图形可能更具说服力。但最终,尽管这些分析都有其优点,但我认为政治仍然会胜出。

这些故事的寓意不是这些灾难促使使用多元方法,而是忽略依赖的不良分析有时会导致严重低估风险。这可能会导致过度自信,这可能是危险的。正如 jwimberley 在对该主题的第一条评论中指出的那样“单独的单变量模型忽略相关性”。

考虑 p. 中的这句话。达西·奥尔森 (Darcy Olsen) 的著作《尝试的权利》 [1] 的第 36 段:

但在 [eteplirsen] 输注开始大约 16 周后,Jenn 开始注意到 [她儿子] Max 的变化。“孩子不再想使用他的轮椅,”她说。几周后,他要求去外面玩——这是他多年来没有做过的事情。然后马克斯开始恢复他的精细运动技能。他能够再次打开容器——随着[杜氏肌营养不良症]的进展,他失去了这项技能。

Max 的母亲 Jenn 正在构建一个关于他的进步的连贯图景,将来自多个结果的证据汇总在一起,这些证据单独可能会被视为“噪音”,但这些证据合在一起却非常引人注目。(这一证据综合原则是儿科医生通常从不忽视父母“我的孩子出了问题”的本能推断的部分原因。父母可以对他们的孩子进行“多元纵向分析”,远比“寡头”临床医生可以在一次简短的临床接触中进行横断面分析。)

从 eteplirsen 的特定案例中抽象出来,考虑一个假设情况,其中只有一小部分研究对象从实验性治疗中受益,假设是因为一些科学尚不知道的共享遗传因素。对于这少数受试者,与 Jenn 的多元故事相对应的统计论点很可能可以清楚地将他们识别为“响应者”,而对单个结果中包含的微弱信号的多次单独分析将各自产生p>0.05,推动一个“无效”的总结性结论。

实现这样的证据综合是临床试验中多变量结果分析的核心原理。几年前,医学研究中的统计方法有一个专门的问题[2] 致力于多变量结果的“联合建模”。

  1. 奥尔森,达西。尝试权:联邦政府如何阻止美国人获得他们需要的挽救生命的治疗。第一版。纽约,纽约:哈珀,哈珀柯林斯出版社的印记,2015 年。
  2. Rizopoulos、Dimitris 和 Emmanuel Lesaffre。“联合建模技术专刊简介”。医学研究中的统计方法 23,没有。1(2014 年 2 月 1 日):3-10。doi:10.1177/0962280212445800。

让我们做一个简单的类比,因为这就是我真正能做出贡献的全部。让我们考虑单变量(边际)与多变量(联合)分布,而不是单变量与多变量回归。假设我有以下数据,我想找到“异常值”。作为第一种方法,我可能会使用两个边际(“单变量”)分布,并在各自的下 2.5% 和上 2.5% 处分别画线。落在结果线之外的点被认为是异常值。

但是有两件事:1)我们如何看待一个轴的线外但另一轴的线内的点?他们是“部分异常值”还是什么?并且 2) 生成的框看起来不像真的在做我们想要的。原因当然是这两个变量是相关的,我们直觉上想要的是找出考虑到变量组合的异常值。

在这种情况下,我们查看联合分布,并根据它们与中心的马氏距离是否在上 5% 范围内对点进行颜色编码。黑点看起来更像异常值,即使一些异常值位于两组绿线内,而一些非异常值(红色)位于两组绿线之外。

在这两种情况下,我们都将 95% 与 5% 分开,但第二种技术解释了联合分布。我相信多元回归就是这样,用“回归”代替“分布”。我并不完全明白,也没有必要(据我所知)自己进行多元回归,但这是我的想法。

[这个类比有问题:马氏距离将两个变量简化为一个数字——就像单变量回归采用一组自变量的方式,并且可以通过正确的技术考虑自变量之间的协方差和结果在单个因变量中 - 而多元回归导致多个因变量。所以它有点倒退,但希望向前 - 足以给出一些直觉。]

在此处输入图像描述