这是一个困扰我很久的问题,我在教科书、谷歌或 Stack Exchange 中都没有找到好的答案。
我有超过 100,000 名患者的数据集,正在比较四种治疗方法。研究问题是在调整了一堆临床/人口变量后,这些治疗之间的生存率是否不同。未调整的 KM 曲线如下。
我使用的每种方法都显示了非比例风险(例如,未调整的对数生存曲线以及与时间的相互作用以及 Schoenfield 残差和排名生存时间的相关性,这些都是基于调整后的 Cox PH 模型)。对数生存曲线如下。如您所见,不成比例的形式是一团糟。虽然单独进行两组比较都不会太难处理,但我有六个比较的事实确实让我感到困惑。我的猜测是,我无法在一个模型中处理所有事情。
我正在寻找有关如何处理这些数据的建议。考虑到比较的数量和不同形式的非比例性,使用扩展的 Cox 模型对这些影响进行建模可能是不可能的。鉴于他们对治疗差异感兴趣,整体分层模型不是一种选择,因为它不允许我估计这些差异。
所以,请随意撕裂我,但我正在考虑最初估计一个分层模型以获得其他协变量的影响(当然,测试无交互假设),然后重新估计每个单独的多变量 Cox 模型两组比较(因此,总共 6 个模型)。这样,我可以解决每个两组比较的非比例形式,并获得更少错误的估计 HR。我知道标准误差会有偏差,但考虑到样本量,一切都可能在“统计上”显着。