考虑到事件发生时间的机器学习方法?

机器算法验证 机器学习 生存 cox模型
2022-04-08 03:51:45

我的模糊理解是机器学习方法是基于分类标签的。生存类型的问题怎么样?也就是说,不仅有“有事件”或“没有事件”,还有“时间到事件”。

在统计学中,我们可以执行例如 Cox PH 回归,但我们只能以线性方式组合多个基线特征(多变量 Cox 分析)。如果我们想看一种更高级的方式来组合它们,比如非线性、基于内核等,是否有相应的机器学习方法考虑到事件发生时间?

感谢您的任何评论。

4个回答

假设 Cox 比例风险模型做出简单的假设(例如线性)是错误的。几十年来,所有回归模型都使用回归样条、张量交互样条和其他方法进行了扩展,以在低维到中维情况下提供极大的灵活性。正如其他人所说,惩罚有助于处理更高维度的案件。[一个问题是如何在同时使用惩罚和回归样条时缩放非线性项。]

另请注意,在这种情况下,术语“多变量”是不合适的,因为只有一个Y.

对于最初的问题,关于统计的令人惊奇的事情之一是统计方法能够基于合理的原则以各种方式扩展模型。Faraggi 和 Simon(医学统计学,1995 年)正是这样做的目的是开发用于获得人工神经网络 Cox 模型的似然函数。

您可能对随机生存森林和相应的 R 包 randomForestSRC 感兴趣:

http://www.ccs.miami.edu/~hishwaran/papers/randomSurvivalForests.pdf

https://cran.r-project.org/web/packages/randomForestSRC/

我认为该方法的主要限制是它不处理随时间变化的预测器。

大多数基于似然函数的线性模型都扩展到 Cox 回归。例如,惩罚回归模型(lasso、rigde 回归、弹性网)或偏最小二乘法。另一方面,有从分类树到生存树的扩展。这意味着所有基于树的集成方法也以自然的方式扩展到生存数据:随机森林、装袋、梯度提升机……。最后,其他方法,如支持向量机或神经网络,有一些生存数据的理论版本,但很难在实践中应用。

任何线性生存分析方法都可以直接核化以生成非线性等价物。不久前我做了类似的事情来模拟食物中孢子微生物病原体的生长时间。

GC Cawley、NLC Talbot、GJ Janacek 和 MW Peck,用于模拟微生物病原体生长域的稀疏贝叶斯核生存分析,IEEE Transactions on Neural Networks,第 17 卷,第 2 期,第 471-481 页,2006 年 3 月。(www