显着预测因子在多元逻辑回归中变得不显着

机器算法验证 物流 统计学意义 多重回归
2022-03-01 22:35:15

当我在两个单独的(单变量)逻辑回归模型中分析我的变量时,我得到以下信息:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

但是当我将它们输入到单个多元逻辑回归模型中时,我得到:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

两个预测变量都是二分的(分类的)。我已经检查了多重共线性。

我不确定我是否提供了足够的信息,但我无法理解为什么预测变量 1 从显着变为不显着,以及为什么多元回归模型中的优势比如此不同。任何人都可以提供发生了什么的基本解释吗?

2个回答

有几个原因(没有一个与逻辑回归特别相关,但可能发生在任何回归中)。

  1. 自由度的损失:当试图从给定的数据集中估计更多参数时,您实际上是在询问更多参数,这会降低精度,从而导致较低的 t 统计量,从而提高 p 值。
  2. 回归量的相关性:您的回归量可能彼此相关,有效地测量类似的东西。比如说,您的 logit 模型是将劳动力市场状态(工作/不工作)解释为经验和年龄的函数。就个人而言,这两个变量都与地位呈正相关,因为更有经验/年龄更大(为了论证而排除了非常老的员工)的员工发现比应届毕业生更容易找到工作。现在,显然,这两个变量是密切相关的,因为你需要年纪大了才能有更多的经验。因此,这两个变量基本上“竞争”解释状态,这可能,特别是在小样本中,导致两个变量“失败”,因为当控制另一个变量时,没有一个效应可能足够强大和足够精确地估计得到重大估计。本质上,您是在问:在保持年龄不变的情况下,另一年的经验有什么积极影响?您的数据集中可能很少甚至没有员工可以回答该问题,因此影响的估计将不准确,从而导致较大的 p 值。

  3. 错误指定的模型:t 统计量/p 值的基本理论要求您估计正确指定的模型。现在,如果您仅对一个预测变量进行回归,那么该单变量模型遭受遗漏变量偏差的可能性非常高。因此,所有关于 p 值如何表现的赌注都没有了。基本上,当您的模型不正确时,您必须小心信任它们。

没有什么特别的理由不应该发生这种情况。多元回归提出了与简单回归不同的问题。特别是,多元回归(在这种情况下,多元逻辑回归)询问因变量和自变量之间的关系,控制其他自变量。简单回归询问因变量和(单个)自变量之间的关系。

如果您添加研究的背景(例如,这些变量是什么?),可能会给出更具体的回答。此外,鉴于您的案例中的所有三个变量都是二分法,您可以很容易地向我们展示数据......只需要 8 行来总结这一点:

DVIV1IV2CountAAA10AAB20

等等