为什么居中自变量可以适度改变主效应?

机器算法验证 回归 相互作用 定心
2022-01-21 21:50:27

我有一个与多元回归和交互相关的问题,受此 CV 线程的启发:使用中心变量分层回归分析的交互项?我们应该以哪些变量为中心?

在检查调节效果时,我确实将我的自变量居中并乘以居中的变量以计算我的交互项。然后我运行我的回归分析并检查可能显示适度的主要和交互作用。

如果我在没有居中的情况下重做分析,显然决定系数(R2) 不变,但回归系数 (βs) 做。这似乎是清晰和合乎逻辑的。

我不明白的是:主效应的 p 值会随着居中而发生显着变化,尽管交互作用不会(这是正确的)。所以我对主效应的解释可能会发生巨大变化——只是由是否居中决定。(这仍然是相同的数据,在两种分析中!)

有人可以澄清吗?- 因为这意味着将我的变量居中的选项是强制性的,每个人都应该这样做,以便使用相同的数据获得相同的结果。


非常感谢您分发该问题和您的全面解释。请放心,我们非常感谢您的帮助!

对我来说,居中的最大优势是避免多重共线性。建立一个规则,无论是否居中,仍然是相当混乱的。我的印象是,大多数资源都建议居中,尽管这样做有一些“风险”。我想再次说明一个事实,即 2 位研究人员处理相同的材料和数据可能得出不同的结果,因为一位进行居中,另一位则没有。我只是读了 Bortz 的一本书的一部分(他是德国和欧洲的教授和统计明星),他甚至没有提到这种技术;只是指出当变量涉及交互时要小心解释变量的主要影响。

毕竟,当您使用一个 IV、一个主持人(或第二个 IV)和一个 DV 进行回归时,您会建议居中还是不居中?

3个回答

在没有交互项的模型中(即没有被构造为其他项的乘积的项),每个变量的回归系数是回归曲面在该变量方向上的斜率。无论变量的值如何,它都是恒定的,因此可以说是衡量该变量的整体效果。

在具有交互作用的模型中,这种解释可以在没有进一步限定的情况下仅针对那些不参与任何交互作用的变量进行。对于涉及交互作用的变量,“主效应”回归系数——即变量本身的回归系数——是当所有其他变量与与该变量交互的值为零,并且系数的显着性检验仅指预测变量空间的该区域中回归曲面的斜率。. 由于不要求在该空间区域中实际存在数据,因此主效应系数可能与实际观察到数据的预测空间区域中的回归曲面的斜率几乎没有相似之处。

在方差分析中,主效应系数类似于简单的主效应,而不是整体的主效应。此外,它可能指在 anova 设计中将是空单元格,其中数据是通过从具有数据的单元格外推而提供的。

对于类似于 anova 中的整体主效应并且不外推到观察数据的区域之外的变量整体效应的度量,我们必须查看回归表面在变量方向上的平均斜率,其中平均超过实际观察到的 N 个案例。该平均斜率可以表示为模型中涉及所讨论变量的所有项的回归系数的加权和。

重量很难描述,但很容易得到。变量的主效应系数的权重始终为 1。对于涉及该变量的项的每个其他系数,权重是该项中其他变量的乘积的平均值。例如,如果我们有五个“原始”变量x1, x2, x3, x4, x5,加上四个双向交互(x1,x2), (x1,x3), (x2,x3), (x4,x5)和一个三向交互(x1,x2,x3),那么模型是

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

整体的主要影响是

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

其中 M[.] 表示括号内数量的样本均值。括号内的所有乘积项都是为了进行回归而构建的,因此回归程序应该已经知道它们并且应该能够根据要求打印它们的平均值。

在只有主效应和双向交互作用的模型中,有一种更简单的方法可以获得整体效应:将原始变量居中 [1] 以它们的平均值。这是在计算乘积项之前完成的,而不是对乘积完成的。然后所有的 M[.] 表达式将变为 0,回归系数将可以解释为整体效果。b的值会改变;B 的值不会。只有参与交互的变量需要居中,但将其他测量变量居中通常没有害处。使变量居中的一般效果是,除了更改截距外,它仅更改与居中变量相互作用的其他变量的系数。尤其,它不会改变任何涉及居中变量的项的系数。在上面给出的示例中,使 x1 居中会改变 b0、b2、b3 和 b23。

[1 - 不同的人使用“居中”的方式不同,足以引起混乱。如此处使用的,“以#为中心变量”意味着从变量的所有分数中减去#,将原始分数转换为与#的偏差。]

那么为什么不经常以手段为中心呢?三个原因。首先,未居中变量的主效应系数本身可能很重要。在这种情况下居中会适得其反,因为它会改变其他变量的主效应系数。

其次,居中将使所有 M[.] 表达式为 0,从而将简单效果转换为整体效果,仅在没有三向或更高交互作用的模型中如果模型包含这样的交互,那么仍然必须完成 b -> B 计算,即使所有变量都以它们的平均值为中心。

第三,以平均值等值为中心,该值由预测变量的分布定义,而不是合理选择,这意味着受中心影响的所有系数都将特定于您的特定样本。如果你以平均值为中心,那么试图复制你的研究的人必须以你的平均值为中心,而不是他们自己的平均值,如果他们想要获得与你相同的系数。这个问题的解决方案是将每个变量集中在该变量的一个合理选择的中心值上,该中心值取决于分数的含义,而不取决于分数的分布。但是,b -> B 计算仍然是必要的。

总体效果的显着性可以通过测试回归系数线性组合的常用程序来测试。但是,必须谨慎解释结果,因为整体效果不是结构参数,而是取决于设计。结构参数——回归系数(未居中,或有合理居中)和误差方差——在预测变量分布的变化下可能会保持不变,但总体影响通常会发生变化。整体效果是特定于特定样本的,不应预期会延续到在预测变量上具有不同分布的其他样本。如果总体效果在一项研究中显着而在另一项研究中不显着,则它可能仅反映预测变量分布的差异。

这是因为在涉及多个预测变量的任何回归中,βs 是偏系数;它们被解释为预测变量每增加 1 个单位的因变量的预测变化,同时保持所有其他预测变量不变。

例如,在涉及交互项的回归中y=β1x1+β2x2+β3x1x2+ϵ,β1是每增加 1 个单位的因变量的预期增加x1,保持所有其他项不变这是术语的问题β3x1x2,因为它会随着x1变化。保持交互项不变的唯一方法是增加 1 个单位x1或者x2(交互作用中涉及的两个变量)是将另一个变量设置为0。因此,当一个变量也是交互项的一部分时,解释β因为这个变量以另一个变量为 0 为条件——不仅仅是保持不变。

为此,本条的解释βs 将根据 0在交互中涉及的其他变量上的位置而变化;其中 0 在感兴趣的变量上实际上并不会改变对其系数的解释。在这种情况下,例如,β1是预测的增加y每增加 1 个单位x1 什么时候x2=0. 如果之间的关系x1y作为函数的变化x2(正如您在包含交互项时假设的那样),那么β1将作为居中的函数而改变x2.

另外,请注意,如果您的值βs 作为居中的函数而发生很大变化,那么您的交互项可能很重要;如果是,解释“主要影响”可能会产生误导,因为这意味着x1y取决于的价值x2,反之亦然。处理这个问题的典型方法是绘制预测值y作为一个函数x1, 对于几个值x2(例如,3;例如,0 和 ±1 SD)。

我一直在为同样的问题发疯,但我终于找到了解决你和我的问题的方法。这完全取决于您如何计算中心变量。有两个选项可用:
1. 平均值 - 单个变量 2.单个变量 - 平均值
您可能将居中的变量计算为(单个变量 - 平均值),因此那些值低的会得到负分,而那些值高的会得到正分数。
我将用一个例子进行解释,以使其更容易理解。我想看看肌肉力量如何影响骨量,我想考虑性别,看看它对女孩和男孩的影响是否不同。这个想法是,肌肉力量越高,骨量就越高。因此,我有:

因变量:骨量 自变量:性别、肌肉力量、interaction_SEX_MUSCLEstrength。

当我发现多重共线性(当你有一个交互项时通常会这样做)时,我将肌肉力量(MEAN – INDIVIDUAL VARIABLE)居中并使用新的居中变量创建了新的交互项。我的系数是

常数:0.902
性别:(-0.010男孩 = 0;女孩 =1)
居中肌肉:-0.023
相互作用:0.0002
因此,如果您想估计男孩的骨量,您将有以下等式:
骨量 =0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

看着这个你可能会认为肌肉对骨骼有负面影响,但你必须考虑你的中心变量,而不是你的原始变量。假设该组的平均肌肉力量为30 KG. 你想估计一个男孩(WEAKBOY)20 KG和另一个男孩(STRONGBOY)的骨量40KGWEAKBOY 的中心值为 (MEAN GROUP VALUE – INDIVIDUAL VALUE; 30 – 20 = 10),而 STRONGBOY 的中心值为 -10。将这些值应用于等式:

WEAKBOY 骨量= 0.902 – 0 – (0.023*10) + ....=0.672

STRONGBOY 骨量= 0.902 – (0.023*(-10)) + ...= 1.132

如您所见,STRONGBOY 的骨骼确实更强壮。如果您以相反的方式将变量居中:(个体 - 平均值),所有系数都将相同,但符号将不同。这是因为当您应用居中变量时,WEAKBOY 将为 (-10) 而 STRONGBOY 将为 (+10)。因此,最终结果将完全相同。

一旦你理解了它,这一切都是有道理的。

希望这个例子足够清楚。