当您使用预测鲨鱼袭击对冰淇淋销售进行回归时,您会发现一个显着的系数。但那是因为有一个令人困惑的可变温度。
但是你如何纠正这个混杂因素?如果您还将温度添加到模型中,则您有两个相关的预测变量和多重共线性问题。因此,如果您发现混杂温度,是否将鲨鱼袭击排除在模型之外的唯一选择?
当您使用预测鲨鱼袭击对冰淇淋销售进行回归时,您会发现一个显着的系数。但那是因为有一个令人困惑的可变温度。
但是你如何纠正这个混杂因素?如果您还将温度添加到模型中,则您有两个相关的预测变量和多重共线性问题。因此,如果您发现混杂温度,是否将鲨鱼袭击排除在模型之外的唯一选择?
首先,仅仅因为两个变量高度相关并不意味着它们在一定程度上是共线的。最好用条件指数检查有问题的共线性。请参阅 David Belsley 的工作或参阅我的论文《多重回归中的共线性诊断:蒙特卡洛研究》。
其次,如果你确实发现了高共线性,你可以用岭回归等方法来解决它,这些方法有偏差,但在共线性时有更好的方差。
第三,共线性的影响体现在参数估计的方差中,而不是参数估计本身。因此,当您看到鲨鱼攻击的参数估计值大大降低时,这是混淆的迹象。
如果您不能对控制变量或相关的偏相关使用线性回归,另一种选择是对温度变量进行分层。
为此,请将温度分为多个类别,例如五个类别。然后你运行五个条件回归模型,即每个温度类别中的单位,一个鲨鱼攻击和销售模型。使用温度的五分之一作为分类的阈值。
鲨鱼袭击的净效应是通过对温度类别的回归参数进行加权平均来发现的(即,对温度的类别频率进行加权)。
我相信 Cochran 的一个论点是,这种类型的分层可以消除 90% 的混杂偏差。