我正在处理一系列患者的纵向数据。患者层面的随访持续时间不统一。
患者可能会经历离散事件(例如心脏病发作)或从未经历过该事件。这个特性当然是二进制的。此外,已经经历过事件(例如,第一次心脏病发作)的患者也可以继续经历更多事件(例如,随后的心脏病发作)。每个事件都锚定到一个事件日期,该日期将与患者被诊断为原发性慢性病(例如,多发性骨髓瘤)的时间进行比较。
我想在我的数据集中附加一个派生列 - TimeSinceLastEvent。第一个事件的此值的推导将由 (FirstEventDate - DiagnosisDate)/365 计算,后续事件将由 (SecondEventDate - FirstEventDate)/365、(ThirdEventDate - SecondEventDate)/365 等计算。
我应该如何为从未经历过该事件的患者编写此派生列?我不能为这些患者插入 NA/NaN,因为下游分析需要非 NA 和有限数据;所以无论如何他们都会被错误地估算。一个想法是我将这些值设置为完全不同但标准化的值,例如 -1 或 9999。这是一种有效且合理的方法吗?如果没有,你用的是什么?