当数据集中有高度相关的列时会发生什么?

数据挖掘 Python 回归 线性回归 相关性 主成分分析
2022-02-12 17:27:51

我正在做一个regression model. 我想知道如果我们Highly correlated在数据集中有两列或更多列会有什么后果?这会降低模型的准确性吗?

回答这个问题将有助于决定如何处理它。PCA是这里的最佳选择吗?

1个回答

具有高度相关的特征是特征中的一种冗余。是的,如果您具有高度相关的特征,它会影响回归模型。这里给出了一个很好的解释

在降维方面,PCA 是一个不错的选择。