线性回归:高度相关的特征但不冗余

机器算法验证 回归 线性的
2022-04-09 05:20:59

我一直在研究一个问题,其目标是找到表达特征和输出变量之间关系的最准确的系数(从物理的​​角度来看)。该模型是线性的,具有多个特征,我正在使用正规方程来解决这个问题。

我在这里担心的是某些特征是高度相关的,据我了解,这可能会导致一些关于如何找到正确系数的问题。我读过有时建议删除这些特性,但在这个问题中,这些特性并不是多余的,即它们都有助于解释输出变量。

那么,我应该如何在不丢弃任何特征的情况下继续找到正确的系数?

编辑:我想我应该提供一个真正问题的简单示例,以使其更加清晰和有趣:

  • 考虑一个用电者连接到同一个电网的小村庄。
  • 我想知道我家的电压是如何受消费者A、消费者B、....的消耗影响的。
  • 这些消费者中的一部分拥有光伏电池板,它们将电力注入电网(就像负消费一样)。
  • 注入功率会影响电网电压,尤其是在该注入点附近。例如,如果我的邻居正在向电网注入电力,那么我家的电压将比注入更远的电压增加得更多。
  • 白天,电力消耗可能很低,因为人们不在家,但所有光伏板都以非常相似的方式注入电力。正如您在下面看到的,当消费者安装光伏电池板时,他们的消费模式变得高度相关。但是,我不能丢弃它们中的任何一个,因为每个都会影响我的电压。离我越近,影响越大。

在此处输入图像描述 在此处输入图像描述

1个回答

相关性会影响系数的标准误差,但至少在通常假设的良好条件下,OLS 解决方案是无偏的。退后一步,知道您的估计存在不确定性。如果这种不确定性足够小(这是您根据所研究材料的知识做出的决定),那么您就完成了。如果您担心缺少样本量会导致较小的标准误差导致不确定性减少,那么您可以进行样本量计算以确定您需要多少次观察才能获得可接受的结果。另一种方法是设计您的实验以防止特征相互关联。如何执行这样的实验将取决于您对主题的了解。

在解释系数至关重要的情况下,正则化回归等替代方案可能会出现问题。特别是,没有一种直接的方法来估计系数估计中的不确定性,特别是如果您使用交叉验证来调整正则化量。