我有一个包含大约 30 个自变量的数据集,并且想构建一个广义线性模型 (GLM) 来探索它们与因变量之间的关系。
我知道我在这种情况下所学的方法,逐步回归,现在被认为是一种统计罪。
在这种情况下应该使用哪些现代模型选择方法?
我有一个包含大约 30 个自变量的数据集,并且想构建一个广义线性模型 (GLM) 来探索它们与因变量之间的关系。
我知道我在这种情况下所学的方法,逐步回归,现在被认为是一种统计罪。
在这种情况下应该使用哪些现代模型选择方法?
逐步回归有几种替代方法。我见过最常用的是:
PLS 回归和LASSO都在 R 包中实现,例如
PLS:http ://cran.r-project.org/web/packages/pls/和
拉尔斯: http : //cran.r-project.org/web/packages/lars/index.html
如果您只想探索因变量和自变量之间的关系(例如,您不需要统计显着性检验),我还建议使用机器学习方法,例如Random Forests或Classification/Regression Trees。随机森林还可以近似您的因变量和自变量之间的复杂非线性关系,线性技术(如线性回归)可能无法揭示这种关系。
机器学习的一个很好的起点可能是 CRAN 上的机器学习任务视图:
机器学习任务视图:http ://cran.r-project.org/web/views/MachineLearning.html
模型平均是一种方法(一种信息论方法)。R 包 glmulti 可以为每个预测变量组合执行线性模型,并对这些结果执行模型平均。
请参阅http://sites.google.com/site/mcgillbgsa/workshops/glmulti
不要忘记首先研究预测变量之间的共线性。方差膨胀因子(在 R 包“汽车”中可用)在这里很有用。
有趣的讨论。将逐步回归标记为统计罪是一种宗教声明——只要知道他们在做什么并且练习的目标很明确,这绝对是一个有自己假设的好方法,而且肯定是有偏见,并且不能保证最优性等。但是,我们所做的许多其他事情也可以这样说。我还没有看到提到的 CCA,它解决了协变量空间中相关结构的更基本问题,确实保证了最优性,已经存在了相当长的一段时间,并且它有一些学习曲线。它在包括 R 在内的各种平台上实现。