正交互项是否暗示其组成变量之间的相关性?

机器算法验证 回归 相互作用
2022-03-14 03:59:46

假设我正在运行具有以下形式的线性回归y=β0+β1A+β2B+β3AB+ϵ.

如果β3是正的,这是否意味着两者之间存在正相关?AB? (相反,负相关,如果β3是负数吗?)

2个回答

不,非零β3并不意味着AB是相关的。这意味着yAB.

简单的例子:

想象一下,我们有关于人们访问加油站的数据。

  • A是某人油箱的体积,以加仑为单位。
  • B是访问时的汽油价格。
  • y是这次访问的汽油支出。

AB是加满这个人的油箱的费用。AB几乎肯定与y,这次访问的汽油支出。

一个积极的β3在这个简单的例子中并不意味着某人的油箱大小与汽油价格相关。一个积极的β3意味着花费y与以美元衡量的某人的油箱的承载能力呈正相关(即AB)。

这是一个潜在的应用反例:假设A是性别,B是受教育年限和y是劳动力市场收入。所以,比如说,经过 12 年的中小学和 3 年的学士学位,你将完成 15 年的学业。

那么,并不完全可以假设AB是不相关的——过去,男人曾经有更高的学位,现在,如果有的话,女人。因此,在过去(不那么遥远)的某个时刻,性别和受教育年限可能是不相关的,而今天这种相关性肯定不强。

然而,提出一个案例并不难β30,因为多上一年的学校教育可能对男性的收入产生不同于女性的影响。

例如,当工资“歧视”(在引号中,因为这是一个备受争议的问题)主要发生在受过高等教育的员工的工作中时,就会出现这种情况。轶事证据表明情况可能如此,因为男性高管的薪酬往往高于女性。另一方面,需要较少教育的工作的工资可能更频繁地由工会和雇主协会之间的广泛协议决定(至少在例如欧洲大陆),从而减少了工资歧视的空间。

(例如,引号可以证明这个简单的故事没有考虑部门、经验等事实)