机器算法验证 - 生存分析中受限均值的置信区间 - 吾爱随笔录

在生存分析中计算受限均值的置信区间的推荐方法是什么？以下是一些示例数据，取自论文

Chris Barker (2009)，Kaplan-Meier 生存估计的均值、中值和置信区间——计算和应用，美国统计学家，第 63 卷，第 1 期，2009。

请注意，尽管有标题，但该论文并未列出任何均值的置信区间。R (3.0.2) 可以计算限制均值的估计值，但只计算中位数的置信区间，而不是均值：

> library(survival)
> time = c(10, 15, 23, 30, 35, 52, 100)
> dead = c(1, 1, 1, 1, 1, 1, 0)
> fit = survfit(Surv(time, dead) ~ 1)
> print(fit, print.rmean=TRUE)
Call: survfit(formula = Surv(time, dead) ~ 1)

records      n.max    n.start     events     *rmean *se(rmean)     median    0.95LCL    0.95UCL 
7.0        7.0        7.0        6.0       37.9       10.7       30.0       15.0         NA 
* restricted mean with upper limit =  100

（这里的限制均值估计为 37.9，基于 100 的截止值。）另一方面，Stata (13.0) 很高兴地计算了一个置信区间：

|    no. of  restricted
|  subjects        mean      Std. Err.    [95% Conf. Interval]
-------------+-------------------------------------------------------------
  total |         7    37.85714(*)   10.73888      16.8093     58.905

(*) largest observed analysis time is censored, mean is underestimated

这似乎是基于正态近似值，即估计的平均值 ± 1.96 标准误差。在 R 中，可以使用从拟合中提取的数字或多或少地手动计算：

fit.table = summary(fit, rmean=TRUE)$table # or, preferably, rmean=100
rmean = fit.table[["*rmean"]]                               # Estimate restricted mean
rmean.se = fit.table[["*se(rmean)"]]                        # Estimated standard error
rmean + c(-1,1) * qnorm(.05/2, lower.tail=FALSE) * rmean.se # 95% CI
[1] 16.80932 58.90497

这是计算受限均值置信区间的好方法吗（至少如果受限均值的截止值是预先固定的）？还是有更好的选择？