我试图理解前后选择背后的逻辑(尽管我知道有更好的模型选择方法)。在正向模型选择中,选择过程从一个空模型开始,然后依次添加变量。在后向选择中,选择过程从完整模型开始,并依次排除变量。
问题:前向-后向选择从哪个模型开始?
是完整的模型吗?空模型?介于两者之间?维基百科和Hastie 等人。(2009) - The Elements of Statistical Learning,第 60 页正在解释该方法,但我无法找到有关起始模型的任何信息。对于我的分析,我使用的stepAIC
是R
package的功能MASS
。
更新:
您可以在下面找到一个示例R
。stepAIC 功能会在控制台中自动打印选择过程的每个步骤,看起来选择是从完整模型开始的。但是,根据 jjet 的回答,我不确定我是否做错了什么。
# Example data
N <- 1000000
y <- rnorm(N)
x1 <- y + rnorm(N)
x2 <- y + rnorm(N)
x3 <- y + rnorm(N)
x4 <- rnorm(N)
x5 <- rnorm(N)
x6 <- rnorm(N)
data <- data.frame(y, x1, x2, x3, x4, x5, x6)
# Selection
library("MASS")
mod <- lm(y ~., data)
stepAIC(mod, direction = "both")