如何解释两个不显着的主要预测变量的显着交互作用?

机器算法验证 回归 统计学意义 相互作用 二进制数据
2022-04-14 08:22:47

我的二元逻辑回归模型中有两个不重要的主要二元变量,但它们的相互作用很重要。变量居中,不存在多重共线性(所有 VIF 约为 1.0)。主要变量不显着,但它们的交互作用是显着的。我想解释两个非显着估计的显着相互作用。

它会这样写:变量 A 的影响在变量 B (B1) 的级别 1 中不太明显,而在 B (B2) 的第二级别中更明显。或者我可以对B在A1中不太明显而在A2中更明显的效果说同样的话......

但是,问题是A的效果和B的效果都不显着!因此,上述解释虽然看似正确,但听起来不一致或奇怪。(另一个变量应该如何提高不显着的效果?)...

再想一想,似乎这实际上是可能的。例如,如果我从样本中排除 B2 的案例,现在样本中 A 的影响将显示为显着(样本中的 B2 案例不允许 A 出现显着)......这越来越清楚现在在我的脑海里,但除了上述解释之外,你还有什么想法吗?

1个回答

您在最后一段中似乎有正确的直觉。回归中的变量 x 和 z 可能看起来不显着,即使它们对因变量 y 有一些影响。以下可重现的小例子说明了这一事实。

set.seed(890)
x <- rnorm(1000, mean=10, sd=3)
z <- rnorm(1000, mean=25, sd=6)

y <- ifelse(z>30, sqrt(x), 0) + rnorm(1000, mean=12, sd=10)

m1 <- lm(y~ x + z)
m2 <- lm(y~ x*z)

summary(m1)
summary(m2)

这会产生以下输出(为了便于阅读而进行了优化):

        Estimate Std. Error t value Pr(>|t|)    
(Intercept) 10.61151    1.79312   5.918 4.48e-09 ***
x           -0.00765    0.11085  -0.069    0.945    
z            0.08651    0.05514   1.569    0.117    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.34 on 997 degrees of freedom
Multiple R-squared:  0.002464,  Adjusted R-squared:  0.000463 
F-statistic: 1.231 on 2 and 997 DF,  p-value: 0.2923

            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 18.59305    5.11233   3.637  0.00029 ***
x           -0.79087    0.48273  -1.638  0.10167    
z           -0.22747    0.19625  -1.159  0.24669    
x:z          0.03077    0.01846   1.667  0.09584 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.33 on 996 degrees of freedom
Multiple R-squared:  0.005239,  Adjusted R-squared:  0.002243 
F-statistic: 1.749 on 3 and 996 DF,  p-value: 0.1554

如您所见,对于某些级别的 z,y 取决于 x(这是您的重要交互)。但是,在 m1 中,当您仅包括主效应时,x 或 z 对 y 似乎没有显着影响。在 m2 中,交互变得显着(尽管几乎没有)。请注意,m1 或 m2 都不是很好的数据模型。

在解释方面,您可能会说对于 z 的某些值,x 对 z 有显着影响。有几种测试方法。您在上一段中提到的那个,根据对某个变量的观察得分排除部分样本,通常在社会科学中被称为“拆分样本”分析。对此进行测试的其他方法意味着计算交互的边际效应,具体取决于两个交互变量之一的值。