机器算法验证 - Kaplan-Meier 曲线中第一个事件之前的置信区间 - 吾爱随笔录

Kaplan-Meier 曲线中第一个事件之前的置信区间

机器算法验证置信区间生存卡普兰迈尔

2022-04-13 13:20:16

生存分析中 Kaplan-Meier 曲线的置信区间仅存在于第一个（非删失）事件之后的时间。示例 R 代码：

set.seed(1)
library(survival)
n = 30
x = 10 + sort(10*rexp(n))
u = rep(0, n)
u[15] = 1
l = survfit(Surv(x,u)~1)
plot(l)

带有置信区间的 Kaplan-Meier 曲线。

虽然所有时间点的实际 Kaplan-Meier 曲线都得到了很好的定义，但（逐点）置信区间似乎对于早于 ~18 的所有时间点都没有定义。

但是，即使对于这些早期时间点，至少尝试计算置信区间似乎也是合理的。例如，如果我们对时间点 10 感兴趣，我们观察到在 30 个可能的事件中，没有发生在时间 10 之前，因此使用三规则，一个简单的近似置信区间（至少）生存到时间 10是 [1−3/30, 1] = [0.9, 1]。当然，这总比没有置信区间要好。

然而，对于 10 到 18 之间的时间点，有几个删失的观察结果。是否仍然可以计算合理的置信区间？或者这些删失的观察结果是软件包在第一个非删失事件之前的时间点没有显示任何置信区间的原因。

2个回答

Fay 等人讨论了在像这样的困难情况下估计 Kaplan-Meier (KM) 置信区间 (CI) 的各种方法——在第一个事件时间之前，有大量审查，或者在少数仍然处于风险中的后期时间——人。, “小样本或重删失的生存分布的逐点置信区间”，生物统计学（2013 年），第一卷。14，没有。4，第 723-736 页。使用某些 CI 方法可以进行此类估计，只是survival软件包中的默认方法未提供它们。例如，在没有审查二项式Clopper-Pearson精确区间以观察事件总数中没有事件的情况下，基本上如问题和另一个答案中所述，可以使用。

随着审查，在生存分析中经常发生，事情变得更加复杂。费伊等人。将 10 KM CI 方法与他们提出的“beta 产品置信度程序 (BPCP)”方法进行比较。BPCP 基于 beta 随机变量乘积的分位数，该乘积根据每个事件时间到感兴趣的生存时间的风险数来定义。他们表明，在某些假设下，他们的方法为上述类型的困难情况提供了正确的 CI 覆盖。如果审查时间与失败时间无关，他们认为它优于其他方法，并且（在补充中）记录了它与 Nelson-Aalen 和 Greenwood CI 估计的渐近等价性。

bpcpR包中有一个实现。此实现包括自上述论文以来所做的一些扩展，包括两个样本比较和离散时间数据的处理。

在我看来，应该有一种方法可以使用似然概念计算第一次失败之前的生存置信区间

看到的可能性 $k=0$ 零故障从 $n$ 单位由二项式概率概率质量函数给出 $B(n,p)$ https://en.wikipedia.org/wiki/Binomial_distribution

如果 $\alpha$ 是 1 尾置信水平，对应的 pre-fails 生存概率 $S_\alpha$ 置信下限应该是 $\alpha^{\frac{1}{n+1}}$ 对于人口规模 $n$

例如 30 个单位的 60% 置信区间为 0.6^(1/31) = 0.984

其它你可能感兴趣的问题

上一篇使用贝叶斯方法确定概率质量函数 (PMF) 下一篇等方差测试——我这样做对吗？