我想从一组 30 个自变量中找到一个连续因变量的预测变量。我正在使用 R 中glmnet包中实现的套索回归。这是一些虚拟代码:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
我的问题是如何解释输出:
是否正确地说,在最终输出中,所有显示系数不为零的预测变量都与因变量相关?
在期刊出版物的背景下,这是否是一份足够的报告?还是期望为系数的显着性提供检验统计?(上下文是人类遗传学)
计算 p 值或其他检验统计量来声明显着性是否合理?这怎么可能?是否在 R 中实施了程序?
每个预测变量的简单回归图(使用线性拟合绘制的数据点)是否适合可视化这些数据?
也许有人可以提供一些已发表文章的简单示例,展示在一些真实数据的背景下使用套索以及如何在期刊中报告这一点?