我一直在研究一个问题,其目标是找到表达特征和输出变量之间关系的最准确的系数(从物理的角度来看)。该模型是线性的,具有多个特征,我正在使用正规方程来解决这个问题。
我在这里担心的是某些特征是高度相关的,据我了解,这可能会导致一些关于如何找到正确系数的问题。我读过有时建议删除这些特性,但在这个问题中,这些特性并不是多余的,即它们都有助于解释输出变量。
那么,我应该如何在不丢弃任何特征的情况下继续找到正确的系数?
编辑:我想我应该提供一个真正问题的简单示例,以使其更加清晰和有趣:
- 考虑一个用电者连接到同一个电网的小村庄。
- 我想知道我家的电压是如何受消费者A、消费者B、....的消耗影响的。
- 这些消费者中的一部分拥有光伏电池板,它们将电力注入电网(就像负消费一样)。
- 注入功率会影响电网电压,尤其是在该注入点附近。例如,如果我的邻居正在向电网注入电力,那么我家的电压将比注入更远的电压增加得更多。
- 白天,电力消耗可能很低,因为人们不在家,但所有光伏板都以非常相似的方式注入电力。正如您在下面看到的,当消费者安装光伏电池板时,他们的消费模式变得高度相关。但是,我不能丢弃它们中的任何一个,因为每个都会影响我的电压。离我越近,影响越大。

