在生存分析中使用 logrank 与 Mantel-Haenszel 方法计算风险比的优缺点是什么?

机器算法验证 生存 冒险
2022-02-10 15:35:55

总结两条生存曲线比较的一种方法是计算风险比 (HR)。有(至少)两种方法来计算这个值。

  • 对数秩方法。作为 Kaplan-Meier 计算的一部分,计算每组()中观察到的事件(通常是死亡)的数量,以及假设生存没有差异的零假设()的预期事件的数量. 则风险比为: OaObEaEb
    HR=(Oa/Ea)(Ob/Eb)
  • Mantel-Haenszel 方法。首先计算 V,它是每个时间点的超几何方差之和。然后将风险比计算为: 我从 Machin, Cheung 和 Parmar, Survival Analysis的第 3 章中得到了这两个方程。那本书指出,这两种方法通常给出非常相似的方法,实际上书中的例子就是这种情况。
    HR=exp((OaEa)V)

有人给我发了一个例子,其中两种方法相差三倍。在这个特定示例中,很明显对数秩估计是合理的,而 Mantel-Haenszel 估计则相去甚远。我的问题是,是否有人对何时最好选择风险比的对数秩估计以及何时最好选择 Mantel-Haenszel 估计有任何一般性建议?跟样本量有关系吗?领带数?样本大小的比例?

4个回答

我想我找到了答案(对我自己的问题)。如果比例风险假设成立,这两种方法给出了相似的风险比估计值。我现在认为,我在一个特定示例中发现的差异是由于该假设是可疑的。

如果比例风险假设成立,则 log(time) 与 log(-log(St)) 的关系图(其中 St 是时间 t 的比例生存)应显示两条平行线。下面是从问题数据集创建的图表。它似乎远非线性。如果比例风险假设不成立,那么风险比的概念就没有意义,因此使用哪种方法来计算风险比并不重要。

替代文字

我想知道风险比的对数秩和 Mantel-Haenszel 估计之间的差异是否可以用作检验比例风险假设的方法?

如果我没记错的话,您引用的对数秩估计器也称为派克估计器。我相信它通常推荐用于 HR < 3,因为它在该范围内表现出较小的偏差。以下论文可能很有趣(请注意,该论文将其称为 O/E):

[...] O/E 方法是有偏差的,但在临床试验中感兴趣的危险率比率的值范围内,它在均方误差方面比 CML 或 Mantel-Haenszel 更有效除了最大的试验之外的所有方法。Mantel-Haenszel 方法偏差最小,给出的答案与使用 CML 获得的答案非常接近,并且可用于提供令人满意的近似置信区间。

实际上还有其他几种方法,选择通常取决于您最感兴趣的是寻找早期差异、后期差异还是 - 对于对数秩检验和 Mantel-Haenszel 检验 - 对所有时间点给予同等权重。

对于手头的问题。对数秩检验实际上是适用于生存数据的 Mantel-Haenszel 检验的一种形式。Mantel-Haenszel 检验通常用于检验分层列联表中的独立性。

如果我们尝试将 MH 检验应用于生存数据,我们可以首先假设每个故障时间的事件是独立的。然后我们按故障时间进行分层。我们使用 MH 方法,将每个故障时间作为一个层。毫不奇怪,他们经常给出相同的结果。

当多个事件同时发生时会发生异常 - 在完全相同的时间点发生多人死亡。我不记得当时的治疗有何不同。我认为对数秩检验平均了捆绑故障时间的可能顺序。

所以对数秩检验是生存数据的MH检验,可以处理平局。我从未使用 MH 测试来获取生存数据。

我以为我偶然发现了一个与这个问题完全相关的网站和参考资料:

http://www.graphpad.com/faq/viewfaq.cfm?faq=1226 从“比较两种方法”开始。

该网站引用了 Berstein 论文链接(上图):

http://www.jstor.org/stable/2530564?seq=1

该网站很好地总结了 Berstein 等人的结果,所以我将引用它:

两者通常给出相同(或几乎相同)的结果。但是,当多个受试者同时死亡或风险比远低于 1.0 时,结果可能会有所不同。

Bernsetin 及其同事使用这两种方法分析了模拟数据 (1)。在他们所有的模拟中,比例风险的假设都是正确的。这两种方法给出了非常相似的值。对数秩方法(他们称为 O/E 方法)报告的值比真实风险比更接近 1.0,尤其是当风险比很大或样本量很大时。

当有联系时,这两种方法都不太准确。对数秩方法倾向于报告更接近 1.0 的风险比(因此当风险比大于 1.0 时报告的风险比太小,而当风险比小于 1.0 时报告的风险比太大)。相比之下,Mantel-Haenszel 方法报告的风险比远离 1.0(因此当风险比大于 1.0 时报告的风险比太大,而当风险比小于 1.0 时报告的风险比太小)。

他们没有使用比例风险假设不正确的模拟数据测试这两种方法。我见过一个数据集,其中两个 HR 估计值非常不同(相差三倍),并且比例风险的假设对于这些数据是可疑的。似乎 Mantel-Haenszel 方法更重视后期时间点的危险差异,而 logrank 方法在任何地方都给予相同的权重(但我没有详细探讨这一点)。如果您使用两种方法看到非常不同的 HR 值,请考虑比例风险假设是否合理。如果该假设不合理,那么描述整个曲线的单一风险比的整个概念当然没有意义

该网站还提到了“HR 的两个估计值非常不同(相差三倍)”的数据集,并建议 PH 假设是一个关键考虑因素。

然后我想,“谁创作了这个网站?” 经过一番搜索,我发现它是 Harvey Motulsky。所以哈维我已经设法在回答你自己的问题时参考你。你成了权威!

“问题数据集”是公开可用的数据集吗?