首先,让我们理清这些术语之间的区别,然后讨论它们各自导致的问题。
多重共线性是指多个右侧变量(通常是控制变量)之间由于高度相关而导致的有问题的关系,而与因果顺序无关。治疗后偏差是指您的治疗变量与至少一个控制变量之间存在问题的关系,基于假设的因果顺序。此外,如果不避免多重共线性和治疗后偏差,则会导致不同的问题。
多重共线性一般是指回归模型中多个右侧变量(通常是两个控制变量)之间的高度相关性,这是一个问题。但是,如果右侧变量和您的结果变量高度相关(以其他右侧变量为条件),那不一定是问题;相反,它会暗示研究人员可能感兴趣的牢固关系。
控制变量之间的多重共线性不会影响模型整体的可靠性。我们仍然可以可靠地解释处理变量的系数和标准误差。多重共线性的不利方面是我们不能再解释高度相关的控制变量的系数和标准误差。但是,如果我们严格地将我们的回归模型设想为一个概念性实验,我们想要估计一种治疗 (T) 对一种结果 (Y) 的影响,将我们模型中的其他变量 (X) 视为控制 (而不是作为因果利益的可估计数量),那么回归高度相关的变量就可以了。
另一个可能要考虑的事实是,如果两个变量是完全多重共线性的,那么任何一个包含它们的回归模型都会被删除。
有关更多信息,请参阅:参见http://en.wikipedia.org/wiki/Multicollinearity
当回归模型包括作为控制变量的治疗结果时,就会出现治疗后偏差,而不管治疗结果控制变量与治疗的相关性有多高。尽管通常治疗后偏倚的严重程度在治疗与治疗结果控制变量之间的相关性中增加。
治疗后偏差是一个问题,因为您的控制变量之一会在数学上“吸收”您的治疗效果,从而使您对治疗效果的估计产生偏差。也就是说,由于您的治疗,您的结果中的一些变化将在治疗结果控制变量的系数估计中考虑。这是误导性的,因为要估计治疗的全部效果,您希望治疗解释的所有变异都包含在治疗变量的系数估计中。
例如,我们想研究种族对薪水的影响。想象一下,种族影响工作职位,进而影响薪水,而种族对薪水的全部影响是由于种族改变人们工作职位的方式。也就是说,除了种族如何影响工作职位之外,种族对工资没有影响。如果我们根据种族回归薪水并控制职位,我们将(正确地,从数学上讲)发现种族和薪水之间没有关系,取决于职位。
为了突出控制治疗结果如何使您的治疗估计产生偏差,请考虑对治疗的总效果感兴趣的研究人员与直接效果之间的差异的一种治疗。如果我们想研究种族对薪水的总体影响,我们并不关心这种影响是如何调节的。我们关心连接种族和薪水的所有途径。我们不想控制任何调节种族对工资影响的变量。如果我们只关心种族对工资的直接影响(尽管这个研究问题带有前达尔文科学种族主义的味道),我们希望从我们的治疗估计中排除任何“中介”影响。所以我们想要控制工作职位、教育、社交网络等。这些会改变治疗估计。如果我们的目标是估计直接效果,那么控制治疗的后果。然而,如果我们的目标是估计总效果,控制这些治疗后果会使我们的治疗估计产生偏差。
有关示例的更多直觉,请参阅 Gelman 和 Hill (2007)“使用回归和多级/分层模型的数据分析”,第 188-192 页。