您在最后一段中似乎有正确的直觉。回归中的变量 x 和 z 可能看起来不显着,即使它们对因变量 y 有一些影响。以下可重现的小例子说明了这一事实。
set.seed(890)
x <- rnorm(1000, mean=10, sd=3)
z <- rnorm(1000, mean=25, sd=6)
y <- ifelse(z>30, sqrt(x), 0) + rnorm(1000, mean=12, sd=10)
m1 <- lm(y~ x + z)
m2 <- lm(y~ x*z)
summary(m1)
summary(m2)
这会产生以下输出(为了便于阅读而进行了优化):
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.61151 1.79312 5.918 4.48e-09 ***
x -0.00765 0.11085 -0.069 0.945
z 0.08651 0.05514 1.569 0.117
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.34 on 997 degrees of freedom
Multiple R-squared: 0.002464, Adjusted R-squared: 0.000463
F-statistic: 1.231 on 2 and 997 DF, p-value: 0.2923
Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.59305 5.11233 3.637 0.00029 ***
x -0.79087 0.48273 -1.638 0.10167
z -0.22747 0.19625 -1.159 0.24669
x:z 0.03077 0.01846 1.667 0.09584 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.33 on 996 degrees of freedom
Multiple R-squared: 0.005239, Adjusted R-squared: 0.002243
F-statistic: 1.749 on 3 and 996 DF, p-value: 0.1554
如您所见,对于某些级别的 z,y 取决于 x(这是您的重要交互)。但是,在 m1 中,当您仅包括主效应时,x 或 z 对 y 似乎没有显着影响。在 m2 中,交互变得显着(尽管几乎没有)。请注意,m1 或 m2 都不是很好的数据模型。
在解释方面,您可能会说对于 z 的某些值,x 对 z 有显着影响。有几种测试方法。您在上一段中提到的那个,根据对某个变量的观察得分排除部分样本,通常在社会科学中被称为“拆分样本”分析。对此进行测试的其他方法意味着计算交互的边际效应,具体取决于两个交互变量之一的值。