删除相关性低的特征有什么风险......?

数据挖掘 回归 特征选择 特征提取
2022-01-30 15:20:20

我正在运行一个线性回归模型作为特定估计问题的基线。基于得到的 R 平方、回归系数及其各自的 p 值,我可以得出结论,可以从模型中删除特定的自变量。

  • 从特征集中移除这些变量的诱导风险是什么?
  • 其他模型——在建模非线性关系方面做得更好——会受到这个决定的影响吗?
  • 如果不运行“非线性”回归器,我如何确定我不会丢失有价值的非线性信息?
1个回答

线性回归中的变量选择基于偏相关,而不是零阶相关。偏相关是在从 X 和 Y 中移除条件变量效应后产生的结果。

虽然变量可能与 Y 不高度相关,但它可能与 X 变量高度相关,使得 X 变量在被部分排除在条件效应之外后变得非常显着。

这种效果在其他名称中被称为抑制。高温高压