多重共线性和单个特征的影响

数据挖掘 回归 线性回归
2022-02-26 16:33:08

假设以下场景:

  1. 我有四个特征:x1x2x3x4
  2. 特征之间存在不可忽略的多重共线性。
  3. 我想用这 4 个特征预测(响应变量)。y
  4. 我使用简单的多元线性回归模型:y=a1x1+a2x2+a3x3+a4x4

假设我想了解椅子的不同组件对椅子零售价的影响。例如:

y = 椅子的零售价

x1 = 使用的坐垫颜色

x2 = 椅子的整体设计

x3 = 椅子的强度

x4 = 椅子的柔软度

x1是完全独立的,但由于多重共线性,其他特征都会受到其他特征的影响。例如,改变坐垫的颜色会改变椅子的设计。改变椅子的设计(结构)会改变椅子的强度。

我听说在严重的多重共线性下回归系数的分析是不可靠的。

假设多元回归模型很好地拟合了椅子价格,我可以天真地使用每个特征的回归系数来理解每个特征对响应变量的影响吗?如果不是,我应该使用什么技术?

例 1:如果我使用红色坐垫 ( ),我可以将零售价提高 3 美元x1

例 2:如果我使用会议室风格的椅子 ( ),我可以增加 12 美元的零售价x2

1个回答

当您面对多重共线性时,您的回归系数可能会出现偏差,因为在多重共线性下,回归无法区分不同的效果:https ://datascience.stackexchange.com/a/57118/71442 。

当您一次只使用一个变量时,您将面临遗漏变量偏差,因为没有其他混杂因素,回归可以归因于相关影响。https://en.wikipedia.org/wiki/Omitted-variable_bias

据我所知,没有一种简单易行的方法可以减轻所描述的一种或两种影响。您应该仔细检查之间的相关性并确定多重共线性是否存在问题。如果是这种情况,并且您相信(出于理论上的原因)所有高度相关的都很重要,您可以尝试找到(某些)的其他表示来减轻多重共线性,例如虚拟/指标表示。xxx

我猜你的椅子例子是通用的,所以我不推测这一点。也许您可以提供有关实际问题的更多背景信息。

上面的讨论涉及因果建模。如果您只对做出预测(而不是统计推断)感兴趣,则可以使用套索研究收缩系数。