我正在尝试创建一个简化模型来预测许多高度相关的因变量 (DV) (~450)。
我的自变量(IV)也很多(~2000)并且高度相关。
如果我使用套索为每个输出单独选择一个简化模型,我不能保证在循环每个因变量时获得相同的自变量子集。
是否有使用 R 中的套索的多元线性回归?
这不是组套索。组套索组IV。我想要多元线性回归(意味着DV是一个矩阵,而不是一个标量向量),它也实现了套索。(注意:正如 NRH 指出的那样,这不是真的。组套索是一个通用术语,包括对 IV 进行分组的策略,但也包括对其他参数(例如 DV)进行分组的策略)
我发现这篇论文涉及一种叫做稀疏重叠集套索的东西
这是一些执行多元线性回归的代码
> dim(target)
[1] 6060 441
> dim(dictionary)
[1] 6060 2030
> fit = lm(target~dictionary)
这是一些在单个 DV 上做套索的代码
> fit = glmnet(dictionary, target[,1])
这就是我想做的:
> fit = glmnet(dictionary, target)
Error in weighted.mean.default(y, weights) :
'x' and 'w' must have the same length
一次选择适合所有目标的特征