如何处理大量共线变量?
数据挖掘
Python
scikit-学习
特征提取
2022-02-12 21:06:22
1个回答
首先,如果您要对时间序列进行回归,则必须检查自相关,否则您的 p 值和显着性检验将非常不准确。此外,如果您不考虑自相关,您将获得的 R^2 值将严重误导。
其次,如果您使用滞后变量,它们中的许多变量很可能是相关的。
共线性通过使模型难以确定哪个系数导致对因变量的影响来影响线性回归模型。结果是,在高度共线的变量之间,您将有不准确的 p 值和非常小的系数,甚至是带有错误符号的系数。
当您将其中一些变量用作控制变量或不太关心解释时,可以忽略多重共线性;此外,当感兴趣的变量不共线时,共线性无关紧要。
交叉验证也有很多关于回归的很好的讨论。
其它你可能感兴趣的问题