我有一个大数据问题,有大量预测变量和非负面响应(距离检查的时间)。对于完整模型,我将使用带有 Gamma 分布式响应的 glm (link="log")。
不过我想找一个小模型。“最佳子集 glm”方法对我不起作用,因为我的内存不足 - 它似乎对我的设置(大数据,弱计算机)不够有效。
所以我改用 LASSO 方法(使用 R 包lars或glmnet)。
glmnet甚至提供除 Gaussian 之外的一些分布族,但不提供 Gamma 族。如何在 R 中使用 Gamma 分布式响应对 glm 进行套索正则化?它可以是用于模拟某种等待时间的 Cox 模型(Cox 网络)吗?
编辑:由于我的数据包含所有数据点以及自上次检查以来的时间信息,因此应用 COX 模型似乎确实合适。在我的“等待时间”或生存分析的情况下,将数据以正确的格式(就像这样)并调用可以完成这项工作Surv。在我的数据中,所有数据点“死亡”,Cox 模型允许分析哪些数据点“死亡”更快。在这种情况下似乎 不需要。非常欢迎评论。glmnetfamily="cox"family="gamma"