多元回归之前的单变量回归有什么意义?

机器算法验证 回归 多元分析 模型选择 因果关系 单变量
2022-01-22 15:03:41

我目前正在研究一个问题,其中我们有一个小数据集,并且对治疗对结果的因果关系感兴趣。

我的顾问指示我对每个预测变量执行单变量回归,结果是响应,然后是治疗分配作为响应。即,我被要求一次用一个变量拟合回归并制作结果表格。我问“我们为什么要这样做?”,答案是“我们感兴趣的是哪些预测因子与治疗分配和结果相关,因为这可能表明存在混杂因素”。我的顾问是一位训练有素的统计学家,而不是不同领域的科学家,所以我倾向于相信他们。

这是有道理的,但不清楚如何使用单变量分析的结果。从中进行模型选择会不会导致估计的显着偏差和狭窄的置信区间?为什么有人要这样做?我很困惑,当我提出这个问题时,我的顾问对这个问题相当不透明。有没有人有这个技术的资源?

(注意:我的顾问说我们没有使用 p 值作为截止值,但我们要考虑“一切”。)

4个回答

您分析的因果关系是您问题的关键限定词。在预测中,本着 Hosmer 和 Lemenshow 建议的“有目的的选择方法”的精神,在多元回归之前运行单变量回归有一个目标。在您的情况下,您正在构建因果模型,在运行多元回归之前运行单变量回归具有完全不同的目标。让我扩展后者。

你和你的导师必须记住一个特定的因果图。因果图具有可检验的含义。你的任务是从你拥有的数据集开始,然后回溯到可能产生它的因果模型。他建议您运行的单变量回归最有可能构成测试您所考虑的因果图的含义的过程中的第一步。假设您认为您的数据是由下图中描述的因果模型生成的。假设您对 D 对 E 的因果影响感兴趣。下图显示了许多可测试的含义,例如:

  • E 是 D 可能依赖
  • E 和 A 可能相互依赖
  • E 和 C 可能相互依赖
  • E 和 B 可能相互依赖
  • E 和 N 可能是独立的

在此处输入图像描述

我提到这只是因果搜索过程中的第一步,因为真正的乐趣在您开始运行多重回归、调节不同变量并测试回归结果是否与图的含义一致时才开始。例如,上图表明,一旦您以 D 为条件,E 和 A 必须是独立的。换句话说,如果您对 D 和 A 回归 E 并发现 A 上的系数不等于 0,您将得出结论:在你以 D 为条件之后,E 取决于 A,因此因果图一定是错误的。它甚至会给你提示如何改变你的因果图,因为这个回归的结果表明在 A 和 E 之间必须有一条不被 D 分隔的路径。

在我尝试回答之前,我想指出这种数据类型及其分布会影响您评估/回归/分类它的方式。

此外,您可能想在此处查找您的顾问可能希望您使用的方法。

一点背景。虽然使用模型选择工具是可能的,但您仍然需要能够说明为什么使用或忽略了预测器。这些工具可以是一个黑匣子。您应该完全了解您的数据并能够说明选择特定预测变量的原因。(特别是,我假设一个论文/硕士项目。)

例如,看房价和年龄。房子的价格通常会随着年龄的增长而下降。因此,当您在数据中看到价格较高的旧房子时,它看起来像是要删除的异常值,但事实并非如此。

至于(注意:我的顾问说我们没有使用 p 值作为截止值,但我们想考虑“一切”。)p 值并不是一切的全部,但它们可能会有所帮助. 召回算法/程序有限,无法查看全貌。

至于为什么您可能对每个预测变量/治疗分配进行单变量回归。

这可能有助于选择要包含在基本多元模型中的预测变量。然后,从该基本模型中,您将查看这些预测变量是否重要并且应该保留,或者是否应该删除它们以获得简约模型。

或者,您可以更好地了解数据。

我认为您的主管要求您对数据进行第一次分析,目的是确定是否有任何变量可以解释数据中很大一部分方差。

一旦您得出结论,是否有任何变量可以解释某些可变性,那么您将能够评估它们如何协同工作,它们是否共线或相互关联等。在纯粹的探索阶段进行多变量分析可能会使第一次评估更加困难,因为通过构建每个变量,您将消除其他变量的影响。可能更难评估是否有任何变量可以解释任何变化。

这可能是一种理解数据的方法,但经验表明,当您将所有预测变量组合在一起并逐个使用每个预测变量时,预测会有所不同。这只是我们确实了解数据的可预测性并了解未来步骤需要做什么的事情。
我见过很多次,当所有变量的 p 值表明某些变量不显着时,但单独使用那些不显着的变量,它们就足够显着了。这是由于混合效应:不是你的主管错了,而是为了理解数据,我们必须这样做。