机器算法验证 - 两个不显着系数的交互项是否显着？ - 吾爱随笔录

两个不显着系数的交互项是否显着？

机器算法验证回归相关性线性模型相互作用

2022-03-24 02:36:07

假设我有一个带有两个数字解释变量的线性回归：A 和 B。

考虑以下场景：

A 和 B 都无关紧要
A 显着，B 不显着；或相反
A 和 B 都很重要

现在，我的问题：

在哪些情况下（或者我们应该在这里区分“理论上可能”和“可能”？）交互项A * B会很重要？

4个回答

$A*B$ 在所有这些情况下都可能很重要。考虑和，其中基础模型是。的每个组合，样本大小（大致）相等和都不显着（除了拒绝真原假设时部分），但是互动词肯定会！这是一个数字示例： $A \in \{-1, 0, 1\}$ $B \in \{-1, 1\}$ $E[Y|A,B] = A*B$ $A \times B$ $A$ $B$ $\alpha$

A <- rep(c(-1,0,1), 100)
B <- rep(c(-1,1), 150)
X <- A*B
Y <- X + rnorm(300)

> summary(lm(Y~A+B+A*B))

Call:
lm(formula = Y ~ A + B + A * B)

Residuals:
     Min       1Q   Median       3Q      Max 
-3.03520 -0.59349 -0.03184  0.62857  2.49359 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.02083    0.05668  -0.367    0.714    
A           -0.03797    0.06942  -0.547    0.585    
B            0.05867    0.05668   1.035    0.301    
A:B          0.90789    0.06942  13.078   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.9818 on 296 degrees of freedom
Multiple R-squared: 0.3681, Adjusted R-squared: 0.3617 
F-statistic: 57.47 on 3 and 296 DF,  p-value: < 2.2e-16

或者，更简单地说：

> cor(A,Y)
[1] -0.02527534
> cor(B,Y)
[1] 0.04782935
> cor(A*B,Y)
[1] 0.6042723

应该直观地清楚，如果我们可以构建一个示例，其中和都无关紧要，但交互作用很重要，我们可以为您的其他两种情况中的任何一种这样做。 $A$ $B$

至于可能...有人可能会争辩说，在现实生活中，除了物理学和其他一些学科之外，几乎所有交互项都很可能是非零的（尽管可能非常小），并且其统计意义上的“显着性”是仅仅是样本量的函数。

Jbowman 的回答是正确的，但要添加到他或她所宣传的“现实生活”维度：您真的应该在这里考虑“现实生活”，因为您的问题的基本答案是：“不可能说；这取决于你是什么造型。”

主要问题的答案——两个“不显着”的预测变量之间是否存在“显着”的相互作用——是“当然”。

想象一下，例如，一种疾病对于两个亚群的成员来说同样可能是终末期的，并且可以通过仅对 1 的干预进行有效治疗。组中的成员不会预测疾病导致的死亡；治疗的主要效果——如果治疗反应人群的样本量或干预的效果量为小的。但是添加一个交叉产品交互项 - 瞧，您会看到治疗效果对于治疗反应组来说是“显着的”。

也许你可以从这个例子中看到，你关于以预测变量和调节变量显着为条件的重要交互的相对“可能性”和“理论可能性”等问题无法以有意义的方式回答。一切都取决于预测变量和调节变量与建模结果的关系。

对于设想两个变量相互作用没有意义或不合理的现象，没有必要询问预测变量和调节变量是否显着或不显着（交互作用可能是在这种情况下不显着，但如果结果并非如此，则可能是巧合或反映了当您有大样本时变量之间的“显着”但无意义的关系等）

如果这种关系是合理的，那么根据定义，“重要”交互是“理论上可能的”，并且在这种情况下，人们是否会期望预测变量和调节变量本身是重要的还是不重要的，这必然取决于您所建模的内容。（因为你可能研究的事物的宇宙是无限的，没有办法说什么更有可能——两个变量，一个，或者都不“显着”）

统计数据不会帮助任何不知道他或她使用什么以及为什么使用它们来理解特定现象的人。

或者，您可以通过 FWL 正交化测试交互是否是虚假的，当交互存在时，您可以删除那些现在不再重要的自变量。

目标是尽可能多地消除交互，因为它会混淆参数的分析。

参见：Empirical Economics 2012，Hatice Ozer Balli 和 Bent E. Sørensen，计量经济学中的相互作用效应。[DOI]

当然。让我尝试用理论的方式而不是困难的数字方式来解释。

让我们想象一下心理学研究，在其中你调查对你的种族群体的认同以及群体对外群体的态度规范对特定外群体的认同的影响： $\text{Ingroup ID} + \text{norm} = \text{Outgroup ID}$

现在想象一下，只有那些高度认同他们的内群体的人，如果对外群体的态度规范很高（积极），那么对外群体的认同感很强，而如果对外群体的态度规范很低（消极），那么他们就很少认同外群体。

这是您的样本的一部分，可能会产生显着影响，但如果您只检查所有参与者（无论两个变量的具体得分如何）都被放入等式以查看对因变量。

换句话说，在没有任何特定交互组合的情况下将所有分数加在一起会抵消显着效果。

其它你可能感兴趣的问题

上一篇大数据的逻辑回归下一篇可以因为研究数据不重要而遗漏数据吗？