匹配参考人群以进行生存分析的正确方法

机器算法验证 生存 引导程序 匹配
2022-04-04 02:34:44

我正在对包含数千个人的特定研究组进行生存分析。我正在寻找从总人口(数百万个人)中获得参考人口的最佳方法。

参考人群的年龄必须匹配,例如与研究人群具有相同的年龄分布。由于总人口远大于研究人口,匹配的参考人口也可能大得多。

最简单的方法是简单地从与研究人群(年龄匹配)相同大小的总人群中抽取一个子样本。这样做意味着永远不会使用总人口中的绝大多数,这可能会引入偏差并肯定会扩大参考人口的置信区间。

为了避免这个问题,我目前正在考虑两种重采样方法。我对幸存者函数使用 Kaplan-Meier 估计器S^(t).

第一种方法

  1. 引导总人口以绘制大量(匹配的)子样本(假设nboot样品nstudy个人,与年龄相匹配),

  2. 将子样本聚合成一个大群体Paggr其中包含重复项(|Paggr|=nboot×nstudy非独特个体),

  3. 计算参考幸存者函数Paggr,

  4. 使用指数格林伍德置信区间(对数对数变换)。

第二种方法

  1. 引导总人口以绘制大量(匹配的)子样本(假设nboot样品nstudy个人,与年龄相匹配),

  2. 计算每个子样本的幸存者函数:S^i(t),i=1..nboot,

  3. 聚合幸存者函数估计,全局幸存者估计为S^(t)=i=1nbootS^i(t)nboot,

  4. 置信区间可以直接从一组幸存者函数估计中获得。

我必须考虑支持/反对这两种方法的任何强有力的统计因素吗?有没有更好的方法来获得匹配的参考人群?我目前倾向于使用第一种方法,因为它更容易实现,并且置信区间有一个常用的封闭形式。

1个回答

我将尝试提供与您的第二个问题相关的答案:是否有更好的[或至少更主流的]方法来获得匹配的参考人群?

相对生存分析

将某个亚组中的生存率与更广泛(和更大)人群中的生存率进行比较的标准方法是使用相对生存率分析。本文提供了一个易于理解的介绍,重点介绍了R包中的实现relsurv

基本思想是,在研究的特定群体中经历的危害可以分解为两个部分:一个是由更广泛人群的经验贡献的,另一个是由所研究群体的独特特征贡献的。

一种常见的方法是将这些成分的效果视为添加剂:

λO=λP+λE

λP是人群经历的基线危害,并且λE是可归因于研究组的特定暴露的过度危害。可以执行回归,允许之间的差异λOλE随年龄,性别,出生年份等而变化。我不会从链接的文章中重复更多,因为我无法更好地解释它。

其他的建议

如果可以的话,我鼓励您不仅在年龄上而且在性别和出生年份等其他方面与普通人群相匹配。这是可取的,因为女性和男性的预期寿命明显不同;而且,由于 20 世纪大多数国家的预期寿命大幅增加,例如,将 1920 年出生的 40 岁与 1970 年出生的 40 岁的存活率进行比较可能是不合理的。