可以(应该?)在随机效应模型中使用正则化技术吗?

机器算法验证 多重回归 随机效应模型 正则化
2022-01-21 23:31:57

通过正则化技术,我指的是套索、岭回归、弹性网等。

考虑一个包含人口统计和诊断数据的医疗保健数据预测模型,其中预测住院时间。对于一些人来说,在基线时间段内有多个 LOS 观察(即不止一个 IP 事件),它们是相关的。

例如,构建一个包含每个个体的随机效应截距项的弹性网络预测模型是否有意义?

3个回答

有几篇论文涉及这个问题。我不会按特殊顺序查找:

  1. Pen.LME:Howard D Bondell、Arun Krishna 和 Sujit K Ghosh。线性混合效应模型中固定和随机效应的联合变量选择。生物识别,66(4):1069-1077,2010。

  2. GLMMLASSO:Jurg Schelldorfer、Peter Buhlmann、Sara van de Geer。使用 L1 惩罚的高维线性混合效应模型的估计。斯堪的纳维亚统计杂志,38(2):197-214,2011。

可以在网上找到。

我碰巧现在正在完成一篇关于将弹性净惩罚应用于混合模型 (LMMEN) 的论文,并计划在下个月将其发送给期刊审阅。

  1. LMMEN:西迪、里托夫、昂格尔。基于弹性网络惩罚的线性混合模型的正则化和分类

总而言之,如果您要对不正常或没有身份链接的数据进行建模,我会选择 GLMMLASSO(但要注意它无法处理大量 RE)。否则 Pen.LME 很好,因为您没有高度相关的数据,无论是固定效应还是随机效应。在后一种情况下,您可以邮寄给我,我很乐意向您发送代码/论文(我将在不久的将来将其放在 cran 上)。

我今天上传到 CRAN - lmmen它解决了线性混合模型问题,同时对固定效应和随机效应使用弹性网类型的惩罚。

在其中还有lmmlassoglmmLasso包的包 cv 函数。

我一直将岭回归视为经验随机效应模型,不限于单个分类变量(也没有花哨的相关矩阵)。您几乎总是可以通过交叉验证岭惩罚和拟合/估计简单的随机效应来获得相同的预测。在您的示例中,您可能会喜欢并在演示/诊断功能上使用单独的脊惩罚,在患者指标上使用另一种惩罚(使用中的惩罚比例因子glmnet)。或者,您可以包含一个奇特的随机效应,该效应具有人的时间相关效应。这些可能性都没有对错,它们只是有用的。

我目前正在考虑一个类似的问题。我认为在应用程序中,如果它有效并且您认为使用它是合理的,您就可以做到。如果它是随机效应中的常用设置(这意味着您对每个组都有重复测量),那么它只是关于估计技术,争议较小。如果您实际上没有对大多数组进行多次重复测量,那么它可能位于通常随机效应模型的边界,并且如果您想将其作为一般建议提出,您可能需要仔细证明其有效性(从方法论的角度)方法。