具体来说:
library( mgcv )
set.seed( 1 )
RawData <- data.frame( y = rbinom( 1000, 1, 0.5 ), x1 = rnorm( 1000 ),
x2 = as.factor( rbinom( 1000, 1, 0.5 ) ), x3 = rnorm( 1000 ),
x4 = as.factor( rbinom( 1000, 1, 0.5 ) ) )
fit <- gam( y ~ s( x1 ) + x2 + s( x3, by = x2 ) + x4, data = RawData,
family = nb( link = log ) )
如何衡量这四个变量的重要性?
我了解“变量重要性”不是一个定义明确的概念,因此我正在寻找最直接的方法,例如解释方差方法。
ANOVA 表似乎是一个自然的选择,但是,正如这个答案中所解释的,它不起作用:对于 GAM 模型中的平滑项,它们没有解释的方差解释。
那么什么是合理的方法呢?