机器算法验证 - 如何解释两个不显着的主要预测变量的显着交互作用？ - 吾爱随笔录

如何解释两个不显着的主要预测变量的显着交互作用？

机器算法验证回归统计学意义相互作用二进制数据

2022-04-14 08:22:47

我的二元逻辑回归模型中有两个不重要的主要二元变量，但它们的相互作用很重要。变量居中，不存在多重共线性（所有 VIF 约为 1.0）。主要变量不显着，但它们的交互作用是显着的。我想解释两个非显着估计的显着相互作用。

它会这样写：变量 A 的影响在变量 B (B1) 的级别 1 中不太明显，而在 B (B2) 的第二级别中更明显。或者我可以对B在A1中不太明显而在A2中更明显的效果说同样的话......

但是，问题是A的效果和B的效果都不显着！因此，上述解释虽然看似正确，但听起来不一致或奇怪。（另一个变量应该如何提高不显着的效果？）...

再想一想，似乎这实际上是可能的。例如，如果我从样本中排除 B2 的案例，现在样本中 A 的影响将显示为显着（样本中的 B2 案例不允许 A 出现显着）......这越来越清楚现在在我的脑海里，但除了上述解释之外，你还有什么想法吗？

1个回答

您在最后一段中似乎有正确的直觉。回归中的变量 x 和 z 可能看起来不显着，即使它们对因变量 y 有一些影响。以下可重现的小例子说明了这一事实。

set.seed(890)
x <- rnorm(1000, mean=10, sd=3)
z <- rnorm(1000, mean=25, sd=6)

y <- ifelse(z>30, sqrt(x), 0) + rnorm(1000, mean=12, sd=10)

m1 <- lm(y~ x + z)
m2 <- lm(y~ x*z)

summary(m1)
summary(m2)

这会产生以下输出（为了便于阅读而进行了优化）：

        Estimate Std. Error t value Pr(>|t|)    
(Intercept) 10.61151    1.79312   5.918 4.48e-09 ***
x           -0.00765    0.11085  -0.069    0.945    
z            0.08651    0.05514   1.569    0.117    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.34 on 997 degrees of freedom
Multiple R-squared:  0.002464,  Adjusted R-squared:  0.000463 
F-statistic: 1.231 on 2 and 997 DF,  p-value: 0.2923

            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 18.59305    5.11233   3.637  0.00029 ***
x           -0.79087    0.48273  -1.638  0.10167    
z           -0.22747    0.19625  -1.159  0.24669    
x:z          0.03077    0.01846   1.667  0.09584 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.33 on 996 degrees of freedom
Multiple R-squared:  0.005239,  Adjusted R-squared:  0.002243 
F-statistic: 1.749 on 3 and 996 DF,  p-value: 0.1554

如您所见，对于某些级别的 z，y 取决于 x（这是您的重要交互）。但是，在 m1 中，当您仅包括主效应时，x 或 z 对 y 似乎没有显着影响。在 m2 中，交互变得显着（尽管几乎没有）。请注意，m1 或 m2 都不是很好的数据模型。

在解释方面，您可能会说对于 z 的某些值，x 对 z 有显着影响。有几种测试方法。您在上一段中提到的那个，根据对某个变量的观察得分排除部分样本，通常在社会科学中被称为“拆分样本”分析。对此进行测试的其他方法意味着计算交互的边际效应，具体取决于两个交互变量之一的值。

其它你可能感兴趣的问题

上一篇需要多少计数才能将平均值估计到一定精度？下一篇测试多边形的非随机重叠