生存分析与否?

机器算法验证 生存 方法
2022-03-22 14:32:03

我正在进行一项分析,结果是以分钟为单位的事件时间,没有审查事件,在这种情况下,事件总是发生。结果变量的分布向右倾斜,但对数变换使其大致呈正态分布。实施干预以减少出现结果事件的时间,主要研究问题围绕干预对结果的影响,以及干预如何影响其他协变量与结果的关联。

我的问题 - 生存分析是在这里使用的适当方法,还是从对数转换结果变量的线性回归开始并走这条路会更好?方法的选择是否取决于研究问题?或者,不管问题如何,在这种情况下,一种方法是否比另一种方法更合适?

3个回答

我同意,如果没有审查,可能没有必要使用生存分析。但是,我要指出,您的工作目标非常重要。如果你只是想建立一个预测模型,那么你使用哪种方法实际上并不重要,只要它能给你带来好的(取决于你如何定义它)的结果。

如果您想让模型更具描述性并了解哪些变量以及它们如何影响因变量,我会尽可能简单,以便易于解释。在这种情况下,最终模型应该反映您的假设,数据生成过程 (DGP) 是如何工作的。好吧,您可以尝试 OLS、GLM 或一些 fe 非线性方法,但您需要决定哪一种对您的 DGP 最有意义。

生存分析不需要审查您的数据。尽管没有经过审查的数据确定性确实为您提供了更多关于模型选择的选择。

您应该使用来确定生存分析是否合适的主要因素是:

  1. “时间”组件是否适合您要使用的分布?从你说的情况来看,它看起来确实如此。

  2. 比例风险假设是否成立?如果没有,则有替代方案,尽管它们的建模和解释更复杂。例如,我经常使用 Royston 和 Parmar 模型,它使用受限三次样条来估计生存分布(参见下面的引用)。

因此,鉴于您提供的信息,我不建议您使用生存模型。虽然要我提出具体建议,但我需要更多信息。

Royston, P. 和 Parmar, MK (2002)。用于截尾生存数据的灵活参数比例风险和比例优势模型,适用于预后建模和治疗效果估计。医学统计,21(15),2175-2197。

剥离其数学技术,生存分析本质上只是分析连续的非负随机变量,以及这些随机变量的某些常见组合(例如,查看这些随机变量的最小值或最大值)。虽然生存分析可以容纳审查数据,但审查不一定属于生存分析的范围。生存分析通常侧重于连续非负随机变量的各个方面,这些变量最常用于涉及对象失效时间(例如,危险率等)的上下文中,但当它们使用连续的统计数据时,它也与其他统计领域交互非负随机变量。

您描述的问题是一个回归问题,其中您的响应变量是一个连续的非负随机变量。您想知道二元干预对您的时间响应变量的影响(其直接影响和与其他协变量的交互影响)。虽然响应变量适用于生存分析中的方法,但这主要是一个回归问题,它将使用具有非负响应变量的回归标准方法(例如,对数线性回归)。