什么是逐步回归的现代、易于使用的替代方案?

机器算法验证 回归 广义线性模型 模型选择 逐步回归
2022-01-22 22:57:35

我有一个包含大约 30 个自变量的数据集,并且想构建一个广义线性模型 (GLM) 来探索它们与因变量之间的关系。

我知道我在这种情况下所学的方法,逐步回归,现在被认为是一种统计罪

在这种情况下应该使用哪些现代模型选择方法?

4个回答

逐步回归有几种替代方法我见过最常用的是:

  • 专家意见以决定模型中包含哪些变量。
  • 偏最小二乘回归你基本上得到了潜在的变量并用它们做回归。您也可以自己进行PCA,然后使用主要变量。
  • 最小绝对收缩和选择算子(LASSO)。

PLS 回归LASSO在 R 包中实现,例如

PLShttp ://cran.r-project.org/web/packages/pls/和

拉尔斯: http : //cran.r-project.org/web/packages/lars/index.html

如果您只想探索因变量和自变量之间的关系(例如,您不需要统计显着性检验),我还建议使用机器学习方法,例如Random ForestsClassification/Regression Trees随机森林还可以近似您的因变量和自变量之间的复杂非线性关系,线性技术(如线性回归)可能无法揭示这种关系。

机器学习的一个很好的起点可能是 CRAN 上的机器学习任务视图:

机器学习任务视图http ://cran.r-project.org/web/views/MachineLearning.html

您可能会考虑用于变量选择和正则化的另一个选项是弹性网络它通过glmnet包在 R 中实现。

模型平均是一种方法(一种信息论方法)。R 包 glmulti 可以为每个预测变量组合执行线性模型,并对这些结果执行模型平均。

请参阅http://sites.google.com/site/mcgillbgsa/workshops/glmulti

不要忘记首先研究预测变量之间的共线性。方差膨胀因子(在 R 包“汽车”中可用)在这里很有用。

有趣的讨论。将逐步回归标记为统计罪是一种宗教声明——只要知道他们在做什么并且练习的目标很明确,这绝对是一个有自己假设的好方法,而且肯定是有偏见,并且不能保证最优性等。但是,我们所做的许多其他事情也可以这样说。我还没有看到提到的 CCA,它解决了协变量空间中相关结构的更基本问题,确实保证了最优性,已经存在了相当长的一段时间,并且它有一些学习曲线。它在包括 R 在内的各种平台上实现。