我正在运行一个线性回归模型作为特定估计问题的基线。基于得到的 R 平方、回归系数及其各自的 p 值,我可以得出结论,可以从模型中删除特定的自变量。
- 从特征集中移除这些变量的诱导风险是什么?
- 其他模型——在建模非线性关系方面做得更好——会受到这个决定的影响吗?
- 如果不运行“非线性”回归器,我如何确定我不会丢失有价值的非线性信息?
我正在运行一个线性回归模型作为特定估计问题的基线。基于得到的 R 平方、回归系数及其各自的 p 值,我可以得出结论,可以从模型中删除特定的自变量。
线性回归中的变量选择基于偏相关,而不是零阶相关。偏相关是在从 X 和 Y 中移除条件变量效应后产生的结果。
虽然变量可能与 Y 不高度相关,但它可能与 X 变量高度相关,使得 X 变量在被部分排除在条件效应之外后变得非常显着。
这种效果在其他名称中被称为抑制。高温高压