当进入样本的时间不同时,使用哪种模型进行生存分析?

机器算法验证 r 生存 cox模型 冒险
2022-03-21 09:50:41

我有一个包含许多交易者执行的交易的数据集,如下所示:

ID       Buy(1)/Sell(0)    StartTime    EndTime      PnL
1              1               1           1          7
1              1               2           3          5
1              0               2           5          6
1              1               3           5         -4
2              1               1           3          8
2              0               2           2         -9
2              0               3           5          3

其中ID是交易者的识别号,Buy(1)/Sell(0)表示交易是买入还是卖出,为简单起见StartTimeEndTime是交易开仓和平仓的日期,PnL是该交易的盈利或亏损。

我的目标是根据交易者是否获利或亏损来研究交易者是否提前平仓(即交易持续时间)。

我对危险模型的概念非常陌生。我理解它们背后的主要思想,但我不确定在我有几个交易者的情况下应用什么正确模型,每个交易者都有多个交易,有不同的入场时间 ( StartTime)。

我将非常感谢您为我提供的任何帮助,并提供尽可能详细的信息。

更新:如果我的数据中的交易被认为是相关的,模型规范会有什么不同?我正在使用 R。

谢谢你。

2个回答

我会将其建模为普通的 Cox 模型,或者可能是 Cox Frailty 模型。

  • 使用 Cox 回归时,您无需担心进入研究的时间(除非存在时间偏差,我在您的描述中没有注意到)。

  • 您不需要具有开始和停止间隔的扩展 Cox 模型,只需计算观察时间 (EndTime - StartTime) 并将其输入到 Surv( observation_time , event)。

  • 您应该使用以下任一方法来考虑对同一个人的重复测量:(i) 混合效应 cox 模型,(ii) coxph中的集群函数

R 中的 Cox Proportional Hazards 模型允许延迟进入样本。

可以按如下方式输入参数:

cox.model <- coxph(Surv(startTime, endTime, event) ~ X + frailty(ID), data)